











关于 封面 


本 书 封面 插画 的 标题 为 “ 伊 斯 特 里 亚 人 ”(“Man from Istria”， 伊 斯 特 里 亚 是 克罗地亚 面向 亚 
得 里 亚 海 的 一 个 很 大 半岛 )。 该 插画 来 自 克罗地亚 斯 普 利 特 民族 博物 馆 2008 年 出 版 的 Balthasar 
Hacquet 的 《图 说 西南 及 东 汪 达尔 人 、 伊 利 里 亚 人 和 斯 拉夫 人 》( lmages and Descriptions of South- 
western and Eastern Wenda, lllyrians, and Slavs ) 的 最 新 重印 版 本 。Hacquet ( 1739 一 1815 ) 是 一 名 
奥地利 内 科 医 生 及 科学 家 ,他 花费 数 年 时 间 去 研究 各 地 的 植物 、 地 质 和 人 种 ， 这些 地 方 包括 奥 匈 
帝国 的 多 个 地 区 ， 以 及 伊利 里 亚 部 落 过 去 居住 的 (罗马 帝国 的 ) 威 尼 托 地 区 、 尤 里 安 阿尔 摆 斯 山 
脉 及 西 巴尔 干 等 地 区 。Hacquet 发 表 的 很 多 论文 和 书籍 中 都 有 手绘 插图 。 

Hacquet 出 版 物 中 丰富 多 样 的 插图 生动 地 描绘 了 200 年 前 西 阿尔 捍 斯 和 巴尔 干 西北 地 区 的 独 
特性 和 个 体 性 。 那 时 候 相 距 几 英里 的 两 个 村 庄村 民 的 衣着 都 迎 然 不 同 ， 当 有 社交 活动 或 交易 时 ， 
不 同 地 区 的 人 们 很 容易 通过 着 装 来 辨别 。 从 那 之 后 着 装 的 要 求 发 生 了 改变 , 不 同 地 区 的 多 样 性 也 





” 逐渐 消亡 。 现 在 很 难说 出 不 同 大 陆 的 居民 有 多 大 区 别 ， 比 如 ,现在 很 难 区 分 斯 洛 文 尼 亚 的 阿尔 插 





斯 山地 区 或 巴尔 干 沿海 那些 美丽 小 镇 或 村 庄 里 的 居民 和 欧洲 其 他 地 区 或 美国 的 居民 。 
Manning 出 版 社 利用 两 个 世纪 之 前 的 服装 来 设计 书籍 封面 ， 以 此 来 赞颂 计算 机 产业 所 具有 的 
创造 性 、 主动 性 和 趣味 性 。 正如 本 书 封 面 的 图 片 一 样 , 这 些 图 片 也 把 我 们 带 回 到 过 去 的 生活 中 去 。 
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分 类 





本 书 前 两 部 分 主要 探讨 监督 学 习 (supervised learning)。 在 监督 学 习 的 过 程 中 ， 我 们 只 需 
要 给 定 输入 样本 集 , 机 器 就 可 以 从 中 推演 出 指定 目标 变量 的 可 能 结果 。 监 督学 习 相对 比较 简单 ， 
机 器 只 需 从 输入 数据 中 预测 合适 的 模型 ， 并 从 中 计算 出 目标 变量 的 结果 。 

监督 学 习 一 般 使 用 两 种 类 型 的 目标 变量 : 标 称 型 和 数值 型 。 标 称 型 目标 变量 的 结果 只 在 有 
限 目标 集中 取 值 ， 如 真 与 假 、 动 物 分 类 集合 { 卜 行 类 、 鱼 类 、 哺 乳 类 、 两 栖 类 、 植 物 、 真 菌 }; 
数值 型 目标 变量 则 可 以 从 无 限 的 数值 集合 中 取 值 ， 如 0.100、42.001、1000.743 等 。 数 值 型 目 
标 变量 主要 用 于 回归 分 析 ， 将 在 本 书 的 第 二 部 分 研究 ， 第 一 部 分 主要 介绍 分 类 。 

本 书 的 前 七 章 主 要 研究 分 类 算法 ， 第 2 章 讲述 最 简单 的 分 类 算法 : k- 近邻 算法 ， 它 使 用 距 
离 矩 阵 进行 分 类 ; 第 3 章 引入 了 决策 树 ， 它 比较 直观 ， 容 易 理 解 ， 但 是 相对 难于 实现 ; 第 4 章 
将 讨论 如 何 使 用 概率 论 建 立 分 类 器 ; 第 5 章 将 讨论 Logistic 回归 ， 如 何 使 用 最 优 参数 正确 地 分 
类 原始 数据 ， 在 搜索 最 优 参数 的 过 程 中 ， 将 使 用 几 个 经 常用 到 的 优化 算法 ; 第 6 章 介绍 了 非常 
流行 的 支持 向 量 机 ; 第 一 部 分 最 后 的 第 7 章 将 介绍 元 算法 一 一 AdaBoost， 它 由 若干 个 分 类 器 构 
成 ， 此 外 还 总 结 了 第 一 部 分 探讨 的 分 类 算法 在 实际 使 用 中 可 能 面 对 的 非 均 衡 分 类 问题 ， 一 旦 训 
练 样本 其 个 分 类 的 数据 多 于 其 他 分 类 的 数据 ， 就 会 产生 非 均 衡 分 类 问题 。 
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本 章 内 容 

口 机 器 学 习 的 简单 概述 
口 机 器 学 习 的 主要 任务 
日 学 习 机 器 学 习 的 原因 
口 Python 语言 的 优势 


最 近 我 和 -一 对 夫妇 共 进 晚餐 ， 他 们 问 我 从 事 什么 职业 ， 我 回应 道 :“ 机 器 学 习 。 妻子 回头 问 
丈夫 :“ 亲 爱 的 ， 什 么 是 机 器 学 习 ? ”她 的 丈夫 答 道 :“T800 型 终结 者 。 在 《终结 者 》 系 列 电影 
中 , 工 800 是 人 工 智能 技术 的 反面 样板 工程 。 不 过 ， 这 位 朋友 对 机 器 学 习 的 理解 还 是 有 所 偏差 的 。 
本 书 既 不 会 探讨 和 计算 机 程序 有 关 的 话题 , 也 不 会 与 计算 机 探讨 人 生 的 意义 。 机 器 学 习 能 让 我 们 
自 数据 集中 受到 启发 ， 换 句 话说 ,我 们 会 利用 计算 机 来 彰显 数据 背后 的 真实 含义 ， 这 才 是 机 器 学 
习 的 真实 含义 。 它 既 不 是 只 会 徒然 模仿 的 机 器 人 ， 也 不 是 具有 人 类 感情 的 仿生 人 。 

现今 , 机 器 学 习 已 应 用 于 多 个 领域 ， 远 超出 大 多 数 人 的 想象 ， 下 面 就 是 假想 的 一 日 ， 其 中 很 
多 场景 都 会 磁 到 机 器 学 习 : 假设 你 想起 今天 是 某 位 朋友 的 生日 ,打算 通过 邮局 给 她 邮寄 一 张 生日 
贺卡 。 你 打开 浏览 器 搜索 趣味 卡片 ， 搜 索引 敬 显 示 了 10 个 最 相关 的 链接 。 你 认为 第 二 个 链接 最 符 
合 你 的 要 求 ， 点 击 了 这 个 链接 ， 搜 索引 擎 将 记录 这 次 点 击 ， 并 从 中 学 习 以 优化 下 次 搜索 结果 。 然 
后 , 你 检查 电子 邮件 系统 ， 此 时 垃圾 邮件 过 滤器 已 经 在 后 台 自 动 过 滤 垃 圾 广告 邮件 , 并 将 其 放 在 
垃圾 箱 内 。 接 着 你 去 商店 购买 这 张 生日 卡片 , 并 给 你 朋友 的 孩子 挑选 了 一 些 尿 布 。 结 账 时 ,收银 
员 给 了 你 一 张 1 美元 的 优惠 券 , 可 以 用 于 购买 6 钢 装 的 啤酒 。 之 所 以 你 会 得 到 这 张 优惠 券 ， 是 因为 
球台 收费 软件 基于 以 前 的 统计 知识 , 认为 买 尿 布 的 人 往往 也 会 买 啤酒 。 然 后 你 去 邮局 邮寄 这 张 痪 
卡 ， 手 写 识别 软件 识别 出 邮寄 地 址 ， 并 将 贺卡 发 送 给 正确 的 邮 车 。 当 天 你 还 去 了 贷款 申请 机 构 ， 
查看 自己 是 否 能 够 申请 贷款 , 办 事 员 并 不 是 直接 给 出 结果 , 而 是 将 你 最 近 的 金融 活动 信息 输入 计 
算 机 ， 由 软件 来 判定 你 是 否 合格 。 最 后 ,你 还 去 了 赌场 想 找 些 乐子 ， 当 你 步 入 前 门 时 ,尾随 你 进 
来 的 一 个 家 伙 被 突然 出 现 的 保安 给 拦 了 下 来 。“ 对 不 起 ， 索 普 先生 ， 我 们 不 得 不 请 您 离开 赌场 。 
我 们 不 欢迎 老 千 。” 图 1-1 集 中 展示 了 使 用 到 的 机 器 学 习 应 用 。 

上 面 提 到 的 所 有 场景 ， 都 有 机 器 学 习 软 件 的 存在 。 现 在 很 多 公司 使 用 机 器 学 习 软件 改善 商业 
决策 、 提 高 生产 率 、 检 测 疾病 、 预 测 天 气 ， 等 等 。 随 着 技术 指数 级 增长 ， 我 们 不 仅 需要 使 用 更 好 
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的 工具 解析 当前 的 数据 ， 而 且 还 要 为 将 来 可 能 产生 的 数据 做 好 充分 的 准备 。 
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图 1-1 机 器 学 习 在 日 常生 活 中 的 应 用 ， 从 左上 角 按 照 顺 时 针 方向 依次 使 用 到 的 机 器 学 习 技 
术 分 别 为 : 人 脸 识别 、 手 写 数字 识别 、 垃 圾 邮件 过 滤 和 亚马逊 公司 的 产品 推荐 


现在 正式 进 人 本 书 机 器 学 习 的 主题 。 本 章 我 们 将 首先 介绍 什么 是 机 器 学 习 , 日 常生 活 中 何 处 
将 用 到 机 融 学 习 ， 以 及 机 器 学 习 如 何 改进 我 们 的 工作 和 生活 ; 然后 讨论 使 用 机 器 学 习 解 决 问题 的 
一 般 办 法 ; 最 后 介绍 为 什么 本 书 使 用 Python 语言 来 处 理 机 器 学 习 问 题 。 我 们 将 通过 一 个 Python 模 
块 NumPy 来 简要 介绍 Python 在 抽象 和 处 理 矩 阵 运算 上 的 优势 。 


1.1 何谓 机 器 学 习 


除却 一 些 无 关 紧 要 的 情况 ， 人们 很 难 直接 从 原始 数据 本 身 获 得 所 需 信息 。 例 如 ,对 于 垃圾 邮 
件 的 检测 , 侦 测 一 个 单词 是 否 存 在 并 没有 太 大 的 作用 ,然而 当 某 几 个 特定 单词 同时 出 现时 , 再 辅 
以 考察 邮件 长 度 及 其 他 因素 ， 人们 就 可 以 更 准确 地 判定 该 邮件 是 否 为 垃圾 邮件 。 简 单 地 说 , 机 器 
学 习 就 是 把 无 序 的 数据 转换 成 有 用 的 信息 。 

机 器 学 习 横 跨 计 算 机 科学 、 工 程 技术 和 统计 学 等 多 个 学 科 ， 需 要 多 学 科 的 专业 知识 。 稍 后 你 
就 能 了 解 到 ， 它 也 可 以 作为 实际 工具 应 用 于 从 政治 到 地 质 学 的 多 个 领域 ， 解 决 其 中 的 很 多 问题 。 
甚至 可 以 这 么 说 ， 机 器 学 习 对 于 任何 需要 解释 并 操作 数据 的 领域 都 有 所 神 益 。 
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开发 出 能 够 识别 鸟 类 的 计算 机 软件 ， 鸟 类 学 者 就 可 以 退休 了 。 因 为 乌 类 学 者 是 研究 鸟 类 的 专家 ， 
因此 我 们 说 创建 的 是 一 个 专家 系统 。 

表 1-1 是 我 们 用 于 区 分 不 同 鸟 类 需要 使 用 的 四 个 不 同 的 属性 值 ， 我 们 选用 体重 、 翼 展 、 有 无 
脚 跨 以 及 后 背 颜 色 作 为 评测 基准 。 现 实 中 ,你 可 能 会 想 测量 更 多 的 值 。 通 常 的 做 法 是 测量 所 有 可 
测 属性 ， 而 后 再 挑选 出 重要 部 分 。 下 面 测量 的 这 四 种 值 称 之 为 特征 ， 也 可 以 称 作 属性 ， 但 本 书 一 
律 将 其 称 为 特征 。 表 1-1 中 的 每 一 行 都 是 一 个 具有 相关 特征 的 实例 。 


表 1-1 ”基于 四 种 特征 的 鸟 物种 分 类 表 








体重 ( 克 ) 田 展 厘米) 脚 中 后 背 颜 色 种 属 
1 1000.1 125.0 无 棕色 红 尾 到 
2 3000.7 200.0 无 灰色 鉴 应 
3 3300.0 220.3 无 灰色 羽 不 
4 4100.0 136.0 有 黑色 普通 潜 鸟 
5 3.0 11.0 无 绿色 瑰丽 蜂鸟 
6 570.0 75.0 无 黑色 象牙 叭 吸 木 鸟 


表 1-1 的 前 两 种 特征 是 数值 型 ， 可 以 使 用 十 进 制 数字 ; 第 三 种 特征 ( 是 否 有 脚 跨 ) 是 二 值 型 ， 
只 可 以 取 0 或 1; 第 四 种 特征 〈 后 背 颜色 ) 是 基于 自 定义 调 色 板 的 枚 举 类 型 ， 这 里 仅 选 择 一 些 常用 
色彩 。 如 果 仅 仅 利 用 常见 的 七 色 作 为 评测 特征 , 后 背 颜 色 也 可 以 是 一 个 整数 。 当 然 在 七 色 之 中 选 
择 一 个 作为 后 背 颜色 有 些 太 简 单 了 ， 但 作为 专家 系统 的 演示 用 例 ， 这 已 经 足够 了 。 | 

如 果 你 看 到 了 一 只 象牙 吹 吸 木 鸟 , 请 马上 通知 我 ! 而 且 千 万 不 要 告诉 任何 人 。 在 我 到 达 之 前 ， 
一 定 要 看 住 它 ， 别 让 它 飞 跑 了 。( 任何 发 现 活 的 象牙 吧 吸 木 鸟 的 人 都 可 以 得 到 5 万 美元 的 奖励 。) 

机 器 学 习 的 主要 任务 就 是 分 类 。 本 节 我 们 讲述 如 何 使 用 表 1-1 进 行 分 类 ， 标 识 出 象牙 唆 叹 森 
鸟 从 而 获取 5 万 美元 的 奖励 。 大 家 都 想 从 众多 其 他 乌 类 中 分 辨 出 象牙 史 吸 木 鸟 ， 并 从 中 获 利 。 最 
简单 的 做 法 是 安装 一 个 喂食 器 ， 然 后 雇用 一 位 鸟 类 学 者 ， 观 察 在 附近 进食 的 鸟 类 。 如 果 发 现象 牙 
喉 吸 木 鸟 ， 则 通知 我 们 。 这 种 方法 太 晶 贵 了 ， 而 且 专 家 在 同一 时 间 只 能 出 现在 一 个 地 方 。 我 们 可 
以 自动 化 处 理 上 述 过程 , 安装 多 个 带 有 照相 机 的 喂食 器 , 同时 接 人 计算 机 用 于 标识 前 来 进食 的 鸟 。 
同样 我 们 可 以 在 喂食 器 中 放置 称 重 仪器 以 获取 鸟 的 体重 ， 利 用 计算 机 视觉 技术 来 提取 鸟 的 翅 长 、 
脚 的 类 型 和 后 背 色彩 。 假 定 我 们 可 以 得 到 所 需 的 全 部 特征 信息 , 那 该 如 何 判断 飞人 进食 器 的 鸟 是 
不 是 象牙 史 吸 木 鸟 呢 ? 这 个 任务 就 是 分 类 ， 有 很 多 机 器 学 习 算 法 非常 善于 分 类 。 本 例 中 的 类 别 就 
是 鸟 的 物种 ， 更 具体 地 说 ， 就 是 区 分 是 否 为 象牙 吻 叹 木 鸟 。 

最 终 我 们 决定 使 用 某 个 机 器 学 习 算法 进行 分 类 , 首先 需要 做 的 是 算法 训练 , 即 学 习 如 何 分 类 。 
通常 我 们 为 算法 输入 大 量 已 分 类 数据 作为 算法 的 训练 集 。 训 练 集 是 用 于 训练 机 器 学 习 算 法 的 数据 
样本 集合 ， 表 1-1 是 包含 六 个 训练 样本 的 训练 集 ， 每 个 训练 样本 有 4 种 特征 、 一 个 目标 变量 ， 如 图 
1-2 所 示 。 目 标 变量 是 机 器 学 习 算 法 的 预测 结果 ,在 分 类 算法 中 目标 变量 的 类 型 通常 是 标 称 型 的 ， 
而 在 回归 算法 中 通常 是 连续 型 的 。 训 练 样本 集 必须 确定 知道 目标 变量 的 值 ， 以 便 机 器 学 习 算法 可 
以 发 现 特征 和 目标 变量 之 间 的 关系 。 正 如 前 文 所 述 ， 这 里 的 目标 变量 是 物种 ， 也 可 以 简化 为 标 


wwaibbt.com 0UDDDOODODOD 





1.3 ”机 器 学 习 的 主要 任务 7 


称 型 的 数值 。 我 们 通常 将 分 类 问题 中 的 目标 变量 称 为 类 别 ， 并 假定 分 类 问题 只 存在 有 限 个 数 的 | | 
| 


类 别 。 
Weight Wingspan Webbed feet? Back color Species 
1000.1 125.0 No Brown | Buteo jamaicensis 
3000,7 200.0 No Gray Sagittarius serpentarlus 


特征 目标 变量 


图 1-2 特征 和 标识 的 目标 变量 


注意 特征 或 者 属性 通常 是 训练 样本 集 的 列 ， 它 们 是 独立 测量 得 到 的 结果 ， 多 个 特征 联系 在 一 
起 共同 组 成 一 个 训练 样本 。 


为 了 测试 机 器 学 习 算法 的 效果 , 通常 使 用 两 套 独立 的 样本 集 : 训练 数据 和 测试 数据 。 当 机 器 
学 习 程 序 开始 运行 时 ,使 用 训练 样本 集 作为 算法 的 输入 ,训练 完成 之 后 输入 测试 样本 。 输 入 测试 
样本 时 并 不 提供 测试 样本 的 目标 变量 , 由 程序 决定 样本 属于 哪个 类 别 。 比 较 测 试 样本 预测 的 目标 
变量 值 与 实际 样本 类 别 之 间 的 差别 , 就 可 以 得 出 算法 的 实际 精确 度 。 本 书 的 后 续 章节 将 会 引入 更 
好 地 使 用 测试 样本 和 训练 样本 信息 的 方法 ， 这 里 就 不 再 详 述 。 

假定 这 个 鸟 类 分 类 程序 , 经 过 测试 满足 精确 度 要 求 ,是 否 我 们 就 可 以 看 到 机 器 已 经 学 会 了 如 
何 区 分 不 同 的 鸟 类 了 呢 ? 这 部 分 工作 称 之 为 知识 表示 ， 某 些 算法 可 以 产生 很 容易 理解 的 知识 表 
示 , 而 某 些 算法 的 知识 表示 也 许 只 能 为 计算 机 所 理解 。 知 识 表示 可 以 采用 规则 集 的 形式 , 也 可 以 
采用 概率 分 布 的 形式 , 设置 可 以 是 训练 样本 集中 的 一 个 实例 。 在 某 些 场合 中 ， 人 们 可 能 并 不 想 建 
立 一 个 专家 系统 ， 而 仅仅 对 机 器 学 习 算法 获取 的 信息 感 兴趣 。 此 时 ， 采 用 何 种 方式 表示 知识 就 显 
得 非常 重要 了 。 

本 节 介 绍 了 机 器 学 习 领 域 涉及 的 关键 术语 , 后 续 章 节 将 会 在 必要 时 引入 其 他 的 术语 , 这 里 就 
不 再 进一步 说 明 。 下 一 节 将 会 介绍 机 器 学 习 算法 的 主要 任务 。 


1.3 ”机 器 学 习 的 主要 任务 


本 节 主 要 介绍 机 器 学 习 的 主要 任务 , 并 给 出 一 个 表格 , 帮助 读者 将 机 器 学 习 算法 转化 为 可 实 
际 运作 的 应 用 程序 。 

上 节 的 例子 介绍 了 机 器 学 习 如 何 解决 分 类 问题 , 它 的 主要 任务 是 将 实例 数据 划分 到 合适 的 分 
类 中 。 机 器 学 习 的 另 一 项 任务 是 回归 ， 它 主要 用 于 预测 数值 型 数据 。 大 多 数 人 可 能 都 见 过 回归 的 
例子 一 数据 拟 合 曲 线 ; 通过 给 定数 据点 的 最 优 拟 合 曲线 。 分 类 和 回归 属于 监督 学 习 ， 之 所 以 称 
之 为 监督 学 习 ， 是 因为 这 类 算法 必须 知道 预测 什么 ， 即 目标 变量 的 分 类 信息 。 
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与 监督 学 习 相 对 应 的 是 无 监督 学 习 ， 此 时 数据 没有 类 别 信息 ， 也 不 会 给 定 目标 值 。 在 无 监督 
学 习 中 , 将 数据 集合 分 成 由 类 似 的 对 象 组 成 的 多 个 类 的 过 程 被 称 为 聚 类 ; 将 寻找 描述 数据 统计 值 
的 过 程 称 之 为 密度 估计 。 此 外 ,无 监督 学 习 还 可 以 减少 数据 特征 的 维度 ， 以 便 我 们 可 以 使 用 二 维 
或 三 维 图 形 更 加 直观 地 展示 数据 信息 。 表 1-2 列 出 了 机 器 学 习 的 主要 任务 ， 以 及 解决 相应 问题 的 
算法 。 
表 1-2 ”用 于 执行 分 类 、 回 归 、 聚 类 和 密度 估计 的 机 器 学 习 算法 














监督 学 习 的 用 途 
天 近邻 算法 线性 回归 
朴素 贝 叶 斯 算法 局 部 加 权 线性 回归 
支持 向 量 机 Ridge 回归 
决策 树 Lasso 最 小 回归 系数 估计 
无 监督 学 习 的 用 途 
K- 均 值 最 大 期 望 算法 
DBSCAN Parzen 窗 设计 


你 可 能 已 经 注意 到 表 1-2 中 的 很 多 算法 都 可 以 用 于 解决 同样 的 问题 ， 有 心 人 肯定 会 问 :“ 为 什 


么 解决 同一 个 问题 存在 四 种 方法 ? 精通 其 中 一 种 算法 ， 是 否 可 以 处 理 所 有 的 类 似 问题 ? ”本 书 的 
下 一 节 将 回答 这 些 疑 问 。 


1.4 如 何 选择 合适 的 算法 


从 表 1-2 中 所 列 的 算法 中 选择 实际 可 用 的 算法 ， 必 须 考虑 下 面 两 个 问题 ， 一 、 使 用 机 器 学 习 
算法 的 目的 ， 想 要 算法 完成 何 种 任务 ， 比 如 是 预测 明天 下 十 的 概率 还 是 对 投票 者 按照 兴趣 分 组 ; 
二 、 需 要 分 析 或 收集 的 数据 是 什么 。 

首先 考虑 使 用 机 器 学 习 算 法 的 目的 。 如 果 想 要 预测 目标 变量 的 值 , 则 可 以 选择 监督 学 习 算法 ， 
否则 可 以 选择 无 监督 学 习 算 法 。 确 定 选 择 监督 学 习 算法 之 后 ， 需 要 进一步 确定 目标 变量 类 型 ， 如 
果 目 标 变 量 是 离散 型 ， 如 是 /和 否 、1/2/3、A/B/C 或 者 红 / 黄 / 黑 等 ， 则 可 以 选择 分 类 器 算法 ; 如 果 目 
标 变 量 是 连续 型 的 数值 ， 如 0.0 ~ 100.00、-999 ~ 999 或 者 +eo ~ -oo 等 ， 则 需要 选择 回归 算法 。 

如 果 不 想 预 测 目标 变量 的 值 , 则 可 以 选择 无 监督 学 习 算法 。 进 一 步 分 析 是 否 需 要 将 数据 划分 
为 离散 的 组 。 如 果 这 是 唯一 的 需求 , 则 使 用 聚 类 算法 ; 如 果 还 需要 估计 数据 与 每 个 分 组 的 相似 程 
度 ， 则 需要 使 用 密度 估计 算法 。 

在 大 多 数 情况 下 ， 上 面 给 出 的 选择 方法 都 能 帮助 读者 选择 恰当 的 机 器 学 习 算 法 , 但 这 也 并 非 
一 成 不 变 。 第 9 章 我 们 就 会 使 用 分 类 算法 来 处 理 回归 问题 ， 显 然 这 将 与 上 面 监督 学 习 中 处 理 回 归 


-问题 的 原则 不 同 。 


其 次 需要 考虑 的 是 数据 问题 。 我 们 应 该 充分 了 解数 据 ， 对 实际 数据 了 解 得 越 充分 , 越 容 易 创 


建 符合 实际 需求 的 应 用 程序 。 主 要 应 该 了 解数 据 的 以 下 特性 : 特征 值 是 离散 型 变量 还 是 连续 型 变 
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| 量 ， 特 征 值 中 是 否 存在 缺失 的 值 ， 何 种 原因 造成 缺失 值 ， 数 据 中 是 否 存在 异常 值 ， 某 个 特征 发 生 
| 的 频率 如 何 ( 是 否 罕见 得 如 同 海底 捞 针 )， 等 等 。 充 分 了 解 上 面 提 到 的 这 些 数据 特性 可 以 缩短 选 
择机 器 学 习 算法 的 时 间 。 

我 们 只 能 在 一 定 程度 上 缩小 算法 的 选择 范围 , 一 般 并 不 存在 最 好 的 算法 或 者 可 以 给 出 最 好 结 
| 果 的 算法 ， 同 时 还 要 尝试 不 同 算法 的 执行 效果 。 对 于 所 选 的 每 种 算法 ， 都 可 以 使 用 其 他 的 机 器 学 
习 技术 来 改进 其 性 能 。 在 处 理 输入 数据 之 后 ,两 个 算法 的 相对 性 能 也 可 能 会 发 生变 化 。 后 续 章 节 
”我 们 将 进一步 讨论 此 类 问题 ， 一 般 说 来 发 现 最 好 算法 的 关键 环节 是 反复 试 错 的 迭 代 过 程 。 
| 机 器 学 习 算法 虽然 各 不 相同 , 但 是 使 用 算法 创建 应 用 程序 的 步骤 却 基 本 类 似 ,， 下 一 节 将 介绍 
如 何 使 用 机 器 学 习 算 法 的 通用 步骤 。 


1.5 开发 机 器 学 习 应 用 程序 的 步骤 


本 书 学 习 和 使 用 机 器 学 习 算 法 开发 应 用 程序 ， 通 常 遵 循 以 下 的 步 又。 

(1) 收集 数据 。 我 们 可 以 使 用 很 多 方法 收集 样本 数据 ， 如 : 制作 网 络 息 虫 从 网 站 上 抽取 数据 、 
从 RSS 反 馈 或 者 API 中 得 到 信息 、 设 备 发 送 过 来 的 实测 数据 ( 风速 、 血 糖 等 )。 提 取 数 据 的 方法 非 
常 多 ， 为 了 节省 时 间 与 精力 ， 可 以 使 用 公开 可 用 的 数据 源 。 

(2) 准备 输入 数据 。 得 到 数据 之 后 ,还 必须 确保 数据 格式 符合 要 求 , 本 书 采用 的 格式 是 Python 
语言 的 List。 使 用 这 种 标准 数据 格式 可 以 融合 算法 和 数据 源 ， 方 便 匹 配 操作 。 本 书 使 用 Python 语 
言 构造 算法 应 用 ， 不 熟悉 的 读者 可 以 学 习 附 录 A。 

此 外 还 需要 为 机 器 学 习 算法 准备 特定 的 数据 格式 ， 如 某 些 算法 要 求 特征 值 使 用 特定 的 格式 ， 
一 些 算法 要 求 目标 变量 和 特征 值 是 字符 串 类 型 ， 而 另 一 些 算法 则 可 能 要 求 是 整数 类 型 。 后 续 章 节 
我 们 还 要 讨论 这 个 问题 ， 但 是 与 收集 数据 的 格式 相 比 ， 处 理 特殊 算法 要 求 的 格式 相对 简单 得 多 。 

(3) 分 析 输 入 数据 。 此 步骤 主要 是 人 工分 析 以 前 得 到 的 数据 。 为 了 确保 前 两 步 有 效 ， 最 简单 
的 方法 是 用 文本 编辑 器 打开 数据 文件 ,查看 得 到 的 数据 是 否 为 空 值 。 此 外 , 还 可 以 进一步 浏览 数 
据 , 分 析 是 否 可 以 识别 出 模式 ; 数据 中 是 否 存 在 明显 的 异常 值 ， 如 某 些 数据 点 与 数据 集中 的 其 他 
值 存在 明显 的 差异 。 通过 一 维 、 二 维 或 三 维 图 形 展 示 数 据 也 是 不 错 的 方法 , 然而 大 多 数 时 候 我 们 
得 到 数据 的 特征 值 都 不 会 低 于 三 个 , 无 法 一 次 图 形 化 展示 所 有 特征 。 本 书 的 后 续 章 节 将 会 介绍 提 
炼 数 据 的 方法 ， 使 得 多 维 数据 可 以 压缩 到 二 维 或 三 维 ， 方便 我 们 图 形 化 展示 数据 。 

这 一 步 的 主要 作用 是 确保 数据 集中 没有 垃圾 数据 。 如 果 是 在 产品 化 系统 中 使 用 机 器 学 习 算法 
并 且 算 法 可 以 处 理 系统 产生 的 数据 格式 ， 或 者 我 们 信任 数据 来 源 ， 可 以 直接 跳 过 第 3 步 。 此 步骤 
需要 人 工 干预 ， 如 果 在 自动 化 系统 中 还 需要 人 工 干预 ， 显 然 就 降低 了 系统 的 价值 。 

(4) 训练 算法 。 机 器 学 习 算法 从 这 一 步 才 真正 开始 学 习 。 根 据 算法 的 不 同 ， 第 4 步 和 第 5 步 是 
机 器 学 习 算 法 的 核心 。 我 们 将 前 两 步 得 到 的 格式 化 数据 输入 到 算法 ,从 中 抽取 知识 或 信息 。 这 里 
得 到 的 知识 需要 存储 为 计算 机 可 以 处 理 的 格式 ， 方 便 后 续 步 又 使 用 。 

如 果 使 用 无 监督 学 习 算法 ， 由 于 不 存在 目标 变量 值 ， 故 而 也 不 需要 训练 算法 ， 所 有 与 算法 相 
关 的 内 容 都 集中 在 第 5 步 。 
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(5) 测试 算法 。 这 一 步 将 实际 使 用 第 4 步 机 器 学 习 得 到 的 知识 信息 。 为 了 评估 算法 ， 必 须 测试 算 
法 工作 的 效果 。 对 于 监督 学 习 ， 必须 已 知 用 于 评估 算法 的 目标 变量 值 ， 对 于 无 监督 学 习 ， 也 必须 用 
其 他 的 评测 手段 来 检验 算法 的 成 功率 。 无 论 哪 种 情形 ， 如 果 不 满意 算法 的 输出 结果 , 则 可 以 回 到 第 
4 步 ， 改 正 并 加 以 测试 。 问 题 常 常会 跟 数 据 的 收集 和 准备 有 关 ， 这 时 你 就 必须 跳 回 第 1 步 重 新 开始 。 

(6) 使 用 算法 。 将 机 器 学 习 算法 转换 为 应 用 程序 ， 执 行 实际 任务 ， 以 检验 上 述 步 又 是 否 可 以 
在 实际 环境 中 正常 工作 。 此 时 如 果 碰 到 新 的 数据 问题 ， 同 样 需要 重复 执行 上 述 的 步骤。 

下 节 我 们 将 讨论 实现 机 器 学 习 算法 的 编程 语言 Python。 之 所 以 选择 Python， 是 因为 它 具 有 其 
他 编程 语言 不 具备 的 优势 , 如 易于 理解 、 丰 富 的 函数 库 ( 尤其 是 矩阵 操作 )、 活 牙 的 开发 者 社区 等 。 





1.6 ”Python 语言 的 优势 


基于 以 下 三 个 原因 , 我们 选择 Python 作为 实现 机 器 学 习 算法 的 编程 语言 : (1) Python 的 语法 清 
晰 ; (2) 易于 操作 纯 文 本 文件 ; (3) 使 用 广泛 ， 存 在 大 量 的 开发 文档 。 


1.6.1 可 执行 伪 代 码 


Python 具有 清晰 的 语法 结构 ,大 家 也 把 它 称 作 可 执行 伪 代 码 (executable pseudo-code )。 默 认 
安装 的 Python 开发 环境 已 经 附带 了 很 多 高 级 数据 类 型 ， 如 列表 、 元 组 、 字 典 、 集 合 、 队 列 等 ， 无 
需 进一步 编程 就 可 以 使 用 这 些 数据 类 型 的 操作 。 使 用 这 些 数据 类 型 使 得 实现 抽象 的 数学 概念 非常 
简单 。 此 外 ， 读 者 还 可 以 使 用 自己 熟悉 的 编程 风格 ， 如 面向 对 象 编程 、 面 向 过 程 编程 、 或 者 函数 
式 编程 。 不 熟悉 Python 的 读者 可 以 参阅 附录 A， 该 附录 详细 介绍 了 Python 语言 、Python 使 用 的 数 
据 类 型 以 及 安装 指南 。 

Python 语 言 处 理 和 操作 文本 文件 非常 简单 ， 非 常 易于 处 理 非 数值 型 数据 。Python 语 言 提供 了 
丰富 的 正则 表达 式 函 数 以 及 很 多 访问 Web 页 面 的 函数 库 ， 使 得 从 HTML 中 提取 数据 变 得 非常 简单 
直观 。 


1.6.2 Python 比较 流行 


Python 语 言 使 用 广泛 ,代码 范例 也 很 多 ,便于 读者 快速 学 习 和 掌握 。 此 外 ， 在 开发 实际 应 用 
程序 时 ， 也 可 以 利用 丰富 的 模块 库 缩 短 开发 周期 。- 

在 科学 和 金融 领域 ，Python 语 言 得 到 了 广泛 应 用 。SciPy 和 NumPy 等 许多 科学 函数 库 都 实现 
了 向 量 和 和 矩阵 操作 ,这些 函 数 库 增加 了 代码 的 可 读 性 , 学 过 线性 代数 的 人 都 可 以 看 懂 代 码 的 实际 
功能 。 另 外， 科学 函数 库 SciPy 和 NumPy 使 用 底层 语言 (C 和 Fortran ) 编写 ,提高 了 相关 应 用 程序 
的 计算 性 能 。 本 书 将 大 量 使 用 Python 的 NumPy。 

Python 的 科学 工具 可 以 与 绘图 工具 Matplotlib 协 同 工 作 。Matplotlib 可 以 绘制 2D、3D 图 形 ， 也 
可 以 处 理科 学 研究 中 经 常 使 用 到 的 图 形 ， 所 以 本 书 也 将 大 量 使 用 Matplotlib。 

Python 开 发 环境 还 提供 了 交互 式 shell 环 境 ， 人 允许 用 户 开发 程序 时 查看 和 检测 程序 内 容 。 
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Python 开发 环境 将 来 还 会 集成 Pylab 模 块 ， 它 将 NumPy、SciPy 和 Matplotlib 合 并 为 一 个 开发 环 
境 。 在 本 书写 作 时 ，Pylab 还 没有 并 人 Python 环境 ， 但 是 不 远 的 将 来 我 们 肯定 可 以 在 Python 开发 环 
境 找到 它 。 


1.6.3 ”Python 语言 的 特色 


诸如 MATLAB 和 Mathematica 等 高 级 程序 语言 也 允许 用 户 执行 矩阵 操作 ，MATLAB 其 至 还 有 
许多 内 蔚 的 特征 可 以 轻松 地 构造 机 器 学 习 应 用 , 而 且 MATLAB 的 运算 速度 也 很 快 。 然 而 MATLAB 
的 不 足 之 处 是 软件 费用 太 高 , 单个 软件 授权 就 要 花费 数 千 美元 。 虽 然 也 有 适合 MATLAB 的 第 三 方 
插件 ， 但 是 没有 一 个 有 影响 力 的 大 型 开源 项 目 。 

Java 和 C 等 强 类 型 程序 设计 语言 也 有 和 矩阵 数学 库 ， 然 而 对 于 这 些 程序 设计 语言 来 说 ， 最 大 的 
问题 是 即使 完成 简单 的 操作 也 要 编写 大 量 的 代码 。 程 序 员 首先 需要 定义 变量 的 类 型 ， 对 于 Java 来 
说 ， 每 次 封装 属性 时 还 需要 实现 getter 和 setter 方 法 。 另 外 还 要 记 着 实现 子 类 ， 即 使 并 不 想 使 用 子 
类 ,也 必须 实现 子 类 方法 。 为 了 完成 一 个 简单 的 工作 , 我 们 必须 花费 大 量 时 间 编 写 了 很 多 无 用 宛 
长 的 代码 。Python 语 言 则 与 Java 和 C 完 全 不 同 ， 它 清晰 简练 ， 而 且 易 于 理解 ， 即 使 不 是 编程 人 员 
也 能 够 理解 程序 的 含义 ， 而 Java 和 C 对 于 非 编程 人 员 则 像 天 书 一 样 难于 理解 。 


所 有 人 在 小 学 二 年 级 已 经 学 会 了 写作 ， 然 而 大 多 数 人 必须 从 事 其 他 更 重要 的 工作 。 
一 一 钨 比 ， 奈 特 


也 许 某 一 天 ， 我 们 可 以 在 这 句 话 中 将 “写作 ”替代 为 “编写 代码 ”， 虽然 有 些 人 对 于 编写 代 
码 很 感 兴趣 ,但 是 对 于 大 多 数 人 来 说 ,编程 仅 是 完成 其 他 任务 的 工具 而 已 。Python 语 言 是 高 级 纺 
程 语言 , 我 们 可 以 花费 更 多 的 时 间 处 理 数据 的 内 在 含义 ,而 无 须 花费 太 多 精力 解决 计算 机 如 何 得 
到 数据 结果 。Python 语 言 使 得 我 们 很 容易 表达 自己 的 目的 。 


1.6.4 Python 语言 的 缺点 


Python 语言 唯一 的 不 足 是 性 能 问题 。Python 程 序 运 行 的 效率 不 如 Java 或 者 C 代 码 高 , 但 是 我 们 
可 以 使 用 Python 调用 C 编 译 的 代码 。 这 样 ， 我 们 就 可 以 同时 利用 C 和 Python 的 优点 ,逐步 地 开发 机 
器 学 习 应 用 程序 。 我 们 可 以 首先 使 用 Python 编写 实验 程序 ， 如 果 进 一 步 想 要 在 产品 中 实现 机 器 学 
习 , 转换 成 C 代 码 也 不 困难 。 如果 程 序 是 按照 模块 化 原则 组 织 的 , 我 们 可 以 先 构造 可 运行 的 Python 
程序 , 然后 再 逐步 使 用 C 代 码 替 换 核 心 代码 以 改进 程序 的 性 能 。C+r Boost 库 就 适合 完成 这 个 任务 ， 
其 他 类 似 于 Cython 和 PyPy 的 工具 也 可 以 编写 强 类 型 的 Python 代码 ， 改 进 一 般 Python 程序 的 性 能 。 

如 果 程 序 的 算法 或 者 思想 有 缺陷 , 则 无 论 程 序 的 性 能 如 何 ， 都 无 法 得 到 正确 的 结果 。 如 果 解 
决 问题 的 思想 存在 问题 , 那么 单纯 通过 提高 程序 的 运行 效率 , 扩展 用 户 规模 都 无 法 解决 这 个 核心 
问题 。 从 这 个 角度 来 看 ，Python 快 速 实现 系统 的 优势 就 更 加 明显 了 ， 我们 可 以 快速 地 检验 算法 或 

者 思想 是 否 正 确 ， 如 果 需 要 ， 再 进一步 优化 代码 。 

本 节 大 致 介绍 了 本 书 选 择 Python 语言 实现 机 器 学 习 算 法 的 原因 ， 下 节 我 们 将 学 习 Python 语 言 

的 shell 开 发 环境 以 及 NumPy 函 数 库 。 
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1.7 NumPy 函 5 数 库 基础 


机 器 学 习 算法 涉及 很 多 线性 代数 知识 ， 因 此 本 书 在 使 用 Python 语言 构造 机 器 学 习 应 用 时 ， 会 经 
常 使 用 NumPy 函 数 库 。 如 果 不 熟 悉 线性 代数 也 不 用 着 急 ， 这 里 用 到 线性 代数 只 是 为 了 简化 不 同 的 数 
据点 上 执行 的 相同 数学 运算 。 将 数据 表示 为 矩阵 形式 ， 只 需要 执行 简单 的 矩阵 运算 而 不 需要 复杂 的 
循环 操作 。 在 你 使 用 本 书 开始 学 习 机 器 学 习 算法 之 前 ， 必 须 确 保 可 以 正确 运行 Python 开发 环境 ， 同 
时 正确 安装 了 NumPy 函 数 库 。NumPy 函 数 库 是 Python 开发 环境 的 一 个 独立 模块 ， 而 且 大 多 数 Python 
发 行 版 没有 默认 安装 NumPy 函 数 库 , 因此 在 安装 Python 之 后 必须 单独 安装 NumPy 函 数 库 。 在 Windows 
命令 行 提示 符 下 输入 c:\Python27\python.exe， 在 Linux 或 者 Mac OS 的 终端 上 输入 python， 进 入 
Python shell 开 发 环境 。 今 后 ， 一 旦 看 到 下 述 提示 符 就 意味 着 我 们 已 经 进入 Python shell 开 发 环境 ，; 


淮 光 此 
在 Python shell 开 发 环境 中 输入 下 列 命令 : 
>>> from numpy import * 


上 述 ee 命名 空间 。Mac OS 上 输出 结果 如 图 1-3 所 示 。 


[mA Terminal — -Python — 79x19 | | 


[et login: Hon Nov 22 88:35:55 on ttys888 口 
ipeter-harringtons-imac:~ pbharrin$ python 

| python 2.6.1 {r261:67515, Feb 11 2616，66:51:29) | 
| {GCC 4.2,1 CApple Ine. build 5646)] on dorwtn | 
‘Type "help", "copyright", "credits'" or "license" for more information. 
| from numpy import * 

| >>> 











图 1.3 命令 行 启动 Python 并 在 Python shell 开 发 环境 中 导入 模块 
然后 在 Python shell 开 发 环境 中 输入 下 述 命令 : 


>>> random.rand (4,4) 


array ([[ 0.70328595, 0.40951383, 0.7475052 ， 0.07061094] ， 
[ 0.9571294 ， 0.97588446, 0.2728084 ， 0.5257719 ] ， 
[ 0.05431627, 0.01396732, 0.60304292, 0.19362288] ， 
{ 0.10648952, 0.27317698, 0.45582919, 0.04881605]]) 


上 述 命令 构造 了 一 个 4 x 4 的 随机 数组 , 因为 产生 的 是 随机 数组 , 不 同 计算 机 的 输出 结果 可 能 与 上 
述 结果 完全 不 同 。 
je NumPy 短 阵 与 数组 的 区 别 、 i i 二 人 

Se 和 1 则 二 外 于 本 
列表 示 的 数字 元 素 。 虽然 它们 看 起 来 很 相似 , 但 是 在 这 两 个 数据 类 型 上 执行 相同 的 数学 运算 可 
能 得 到 不 同 的 结果 ， 其 中 NumPy 函 数 库 中 的 matrix 与 MATLAB 中 matrices 等 价 。 


调用 mat ( ) 函数 可 以 将 数组 转化 为 矩阵 ， 输 入 下 述 命令 : 
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>>> zanGMat = mat (random.rand (4,4)) 


由 于 使 用 随机 函数 产生 矩阵， 不 同 计算 机 上 输出 的 值 可 能 咯 有 不 同 : 


>>> randMat .I | 

matrix([{ 0.24497106, 1.75854497, -1.77728665, -0.0834912 ]， 
[ 1.49792202, 2.12925479, 1.32132491, -9.75890849]， 
[ 2.76042144, 1.67271779, -0.29226613, -8.45413693]， 
[-2.03011142, -3.07832136, 1.4420448 ， 9.62598044]]) 


. 工 操作 符 实现 了 和 矩阵 求 逆 的 运算 。 非 常 简单 吧 ? 没有 NumPy 库 ，Python 也 不 能 这 么 容易 算出 
来 矩阵 的 逆 运 算 。 不 记得 或 者 没 学 过 矩阵 求 道 也 没关系 ，NumPy 库 帮 有 我们 做 完了 ， 执 行 下 面 的 命 
令 存储 逆 和 矩阵 ; 

>>> invRandMat = randMat.I 


接着 执行 矩阵 乘法 ， 得 到 矩阵 与 其 逆 矩 阵 相 乘 的 结果 


>>> randMat*invRandMat 


matrix([[ 1.00000000e+f00， 0.00000000e+00， 2.22044605e-16， 
1.77635684e-15] ， 

[ 0.00000000e+00， 1.00000000e+00, 0.00000000e+00， 
0.00000000e+001]1, 

[ 0.00000000e+00, 4.44089210e-16， 1,00000000e+00， 
-8.88178420e-16]， 

[ -2.22044605e-16, 0.00000000e+00， 1.11022302e-16, 


户 


.00000000e+00]] ) 

结果 应 该 是 单位 矩阵 ， 除 了 对 角 线 元 素 是 1，4 x 4 矩阵 的 其 他 元 素 应 该 全 是 0。 实 际 输出 结果 略 有 
不 同 , 矩阵 里 还 留 下 了 许多 非常 小 的 元 素 , 这 是 计算 机 处 理 误差 产生 的 结果 。 输 入 下 述 命 令 ，, 得 
到 误差 值 : 


>>> myEye = randMat*invRandMat 
>>> myEye - eye(4) 


matrix({[ 0.00000000e+00, -6.59194921le-17, -4.85722573e-17, 
-4.99600361e-16]， 

[ 2.22044605e-16, 0.00000000e+00， -6.03683770e-16, 
-7.77156117e-16] ， 

[ -5.55111512e-17， -1.04083409e-17, -3.33066907e-16, 
-2.22044605e-16] ， 

[ 5.55111512e-17， 1.5612511l3e-17, -5.55111512e-17， 


函数 eye (4) 创建 4x4 的 单位 矩阵 。 

只 要 能 够 顺利 地 完成 上 述 例子 , 就 说 明 已 经 正确 地 安装 了 NumPy 函 数 库 , 以 后 我 们 就 可 以 利 
用 它 构 造 机 器 学 习 应 用 程序 。 即 使 没有 提前 学 习 所 有 的 函数 也 没有 关系 ,本 书 将 在 需要 的 时 候 介 
绍 更 多 的 NumPy 函 数 库 的 功能 。 


1.8 ”本章 小 结 


尽管 没有 引起 大 多 数 人 的 注意 , 但 是 机 器 学 习 算法 已 经 广泛 应 用 于 我 们 的 日 常生 活 之 中 。 每 
天 我 们 需要 处 理 的 数据 在 不 断 地 增加 , 能够 深入 理解 数据 背后 的 真实 含义 ,是 数据 驱动 产业 必须 
具备 的 基本 技能 。 
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14 第 1 章 机 器 学 习 基 础 





学 习 机 器 学 习 算 法 ,必须 了 解数 据 实例 ,每 个 数据 实例 由 多 个 特征 值 组 成 。 分 类 是 基本 的 机 
器 学 习 任 务 ， 它 分 析 未 分 类 数据 ， 以 确定 如 何 将 其 放 人 已 知 群 组 中 。 为 了 构建 和 训练 分 类 器 ， 必 
须 首先 输入 大 量 已 知 分 类 的 数据 ， 我 们 将 这 些 数据 称 为 训练 样本 集 。 

尽管 我 们 构造 的 鸟 类 识别 专家 系统 无 法 像 人 类 专家 一 样 精确 地 识别 不 同 的 鸟 类 , 然而 构建 接 
近 专 家 水 平 的 机 器 系统 可 以 显著 地 改进 我 们 的 生活 质量 。 如 果 我 们 可 以 构造 的 医生 专家 系统 能 够 
达到 人 类 医生 的 准确 率 , 则 病人 可 以 得 到 快速 的 治疗 ;如 果 我 们 可 以 改进 天 气 预 报 , 则 可 以 减少 
水 资源 的 短缺 ,提高 食物 供给 。 我 们 可 以 列举 许 许多 多 这 样 的 例子 ， 机 器 学 习 的 应 用 前 景 几乎 是 
无 限 的 。 

第 一 部 分 的 后 续 6 章 主要 研究 分 类 问题 ， 它 是 监督 学 习 算 法 的 一 个 分 支 ， 下 一 章 我 们 将 介绍 
第 一 个 分 类 算法 一 一 大 近邻 算法 。 
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第 2 章 
k- 近 邻 算法 








本 章 内 容 

口 大 近邻 分 类 算法 

口 从 文本 文件 中 解析 和 导入 数据 
口 使 用 Matplotlib 创 建 扩散 图 

口 归 一 化 数值 


众所周知 ， 电 影 可 以 按照 题材 分 类 ， 然 而 题材 本 身 是 如 何 定义 的 ?由 谁 来 判定 某 部 电影 属于 哪 
个 题材 ?也 就 是 说 同一 题材 的 电影 具有 哪些 公共 特征 ?这 些 都 是 在 进行 电影 分 类 时 必须 要 考虑 的 问 
题 。 没 有 娜 个 电影 人 会 说 自己 制作 的 电影 和 以 前 的 某 部 电影 类 似 , 但 我 们 确实 知道 每 部 电影 在 风格 
上 上 的确 有 可 能 会 和 同 题材 的 电影 相近 。 那 么 动作 片 具有 哪些 共有 特征 ， 使 得 动作 片 之 间 非 常 类 似 ， 
而 与 爱情 片 存在 着 明显 的 差别 呢 ? 动作 片 中 也 会 存在 接吻 镜头 , 爱情 片 中 也 会 存在 打斗 场景 , 我 们 
不 能 单纯 依靠 是 否 存 在 打斗 或 者 亲吻 来 判断 影片 的 类 型 。 但 是 爱情 片 中 的 亲吻 镜头 更 多 , 动作 片 中 
的 打斗 场景 也 更 频繁 , 基于 此 类 场景 在 某 部 电影 中 出 现 的 次 数 可 以 用 来 进行 电影 分 类 。 本章 第 一 节 
基于 电影 中 出 现 的 亲吻 、 打 斗 出 现 的 次 数 ， 使 用 所 近邻 算法 构造 程序 ， 自 动 划分 电影 的 题材 类 型 。 
我 们 首先 使 用 电影 分 类 讲解 上 近邻 算法 的 基本 概念 ， 然 后 学 习 如 何在 其 他 系统 上 使 用 大 近 邻 算法 。 

本 章 介 绍 第 一 个 机 器 学 习 算 法 : 近邻 算法 ， 它 非常 有 效 而 且 易 于 掌握 。 首 先 ， 我 们 将 探讨 
近邻 算法 的 基本 理论 , 以 及 如 何 使 用 距离 测量 的 方法 分 类 物品 ; 其 次 我 们 将 使 用 Python 从 文本 文件 
中 导入 并 解析 数据 ; 再 次 , 本 书 讨 论 了 当 存 在 许多 数据 来 源 时 ,. 如何 避免 计算 距离 时 可 能 磁 到 的 一 
些 常见 错误 ; 最 后 ， 利 用 实际 的 例子 讲解 如 何 使 用 -近邻 算法 改进 约会 网 站 和 手写 数字 识别 系统 。 


2.1 HK- 近邻 算法 概述 

简单 地 说 ， 左 近邻 算法 采用 测量 不 同 特征 值 之 间 的 距离 方法 进行 分 类 。 

a 时 太 近 邻 算法 和 全 
优点 : 精度 高 、 对 异常 值 不 敏感 、 无 数据 输入 假定 。 


缺点 : 计算 复杂 度 高 、 空 间 复 杂 度 高 。 
适用 数据 范围 :数值 型 和 标 称 型 。 
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本 书 讲解 的 第 一 个 机 器 学 习 算 法 是 上 近邻 算法 (kNN )， 它 的 工作 原理 是 : 存在 一 个 样本 数 
据 集合 ， 也 称 作 训练 样本 集 ， 并 且 样 本 集中 每 个 数据 都 存在 标签 ， 即 我 们 知道 样本 集中 每 一 数据 
与 所 属 分 类 的 对 应 关系 。 输 入 没有 标签 的 新 数据 后 , 将 新 数据 的 每 个 特征 与 样本 集中 数据 对 应 的 
特征 进行 比较 ,然后 算法 提取 样本 集中 特征 最 相似 数据 ( 最 近邻 ) 的 分 类 标签 。 一 般 来 说 , 我 们 
只 选择 样本 数据 集中 前 k 个 最 相似 的 数据 ,这 就 是 近邻 算法 中 kK 的 出 处 ,通常 是 不 大 于 20 的 整数 。 
最 后 ， 选 择 k 个 最 相似 数据 中 出 现 次 数 最 多 的 分 类 ， 作 为 新 数据 的 分 类 。 

现在 我 们 回 到 前 面 电 影 分 类 的 例子 , 使 用 -近邻 算法 分 类 爱情 片 和 动作 片 。 有 人 曾经 统计 过 
很 多 电影 的 打斗 镜头 和 接吻 镜头 ， 图 2-1 显 示 了 6 部 电影 的 打 半 和 接吻 镜头 数 。 假 如 有 一 部 未 看 过 
的 电影 ， 如 何 确 定 它 是 爱情 片 还 是 动作 片 呢 ?我 们 可 以 使 用 kNN 来 解决 这 个 问题 。 


California Man 


中 He's Not Really into Dudes 

由 ? 

现 

的 Beautiful Woman 

接 

多 Kevin Longblade 

次 Robo Slayer 3000 
Amped | 





电影 中 出 现 的 打斗 镜头 次 数 
图 2-1 使 用 打斗 和 接吻 镜头 数 分 类 电影 


首先 我 们 需要 知道 这 个 未 知 电影 存 在 多 少 个 打斗 镜头 和 接吻 镜头 ， 图 2-1 中 问号 位 置 是 该 未 
知 电影 出 现 的 镜头 数 图 形 化 展示 ， 有 具体 数字 参见 表 2-1。 


表 2-1 每 部 电影 的 打斗 镜头 数 、 接 吻 镜 头 数 以 及 电影 评估 类 型 











电影 名 称 打斗 镜头 接吻 镜头 电影 类 型 
California Man 3 104 爱情 片 
He’'s Not Really into Dudes 2 100 爱情 片 
Beautiful Woman 1 81 爱情 片 
Kevin Longblade 101 10 动作 片 
Robo Slayer 3000 99 5 动作 片 
Amped Il 98 2 动作 片 
? 18 90 未 知 








即使 不 知道 未 知 电影 属于 哪 种 类 型 , 我们 也 可 以 通过 某 种 方法 计算 出 来 。 首先 计算 未 知 电影 
与 样本 集中 其 他 电影 的 距离 ， 如 表 2-2 所 示 。 此 处 暂时 不 要 关心 如 何 计算 得 到 这 些 距离 值 ， 使 用 
Python 实 现 电 影 分 类 应 用 时 ， 会 提供 具体 的 计算 方法 。 
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表 2-2 已 知 电影 与 未 知 电影 的 距离 


电影 名 称 : 与 未 知 电影 的 距离 
California Man 20.5 
He's Not Really into Dudes 18.7 
Beautiful Woman 19.2 
Kevin Longblade 115.3 
Robo Slayer 3000 117.4 
Amped Il 118.9 


现在 我 们 得 到 了 样本 集中 所 有 电影 与 未 知 电影 的 距离 ， 按 照 距离 递增 排序 ， 可 以 找到 k 个 距 
离 最 近 的 电影 。 假 定居 3， 则 三 个 最 靠近 的 电影 依次 是 Fesy Not Really into Dudes、Beautiful Woman 
和 California Man。k- 近 邻 算法 按照 距离 最 近 的 三 部 电影 的 类 型 ,决定 未 知 电影 的 类 型 ,而 这 三 部 
电影 全 是 爱情 片 ， 因 此 我 们 判定 未 知 电影 是 爱情 片 。 

本 章 主要 讲解 如 何在 实际 环境 中 应 用 太 近 邻 算法 ， 同 时 涉及 如 何 使 用 Python 工具 和 相关 的 机 
器 学 习 术 语 。 按 照 1.5 节 开发 机 吉 学 习 应 用 的 通用 步 又， 我们 使 用 Python 语言 开发 太 近 邻 算法 的 简 
单 应 用 ， 以 检验 算法 使 用 的 正确 性 。 


kK- 近邻 算法 的 一 般 流程 
(1) 收集 数据 : 可 以 使 用 任何 方法 。 
(2) 准备 数据 ; 距离 计算 所 需要 的 数值 ， 最 好 是 结构 化 的 数据 格式 。 
(3) 分 析 数 据 ; 可 以 使 用 任何 方法 。 
(4) 训练 算法 ,此 步骤 不 适用 于 所 近邻 算法 。 
(5) 测试 算法 计算 错误 率 。 
(6) 使 用 算法 : 首先 需要 输入 样本 数据 和 结构 化 的 输出 结果 ， 然 后 运行 所 近邻 算法 判定 输 
入 数据 分 别 属 于 哪个 分 类 ， 最 后 应 用 对 计算 出 的 分 类 执行 后 续 的 处 理 。 





2.1.1 准备， 使 用 Python 导入 数据 


首先 , 创建 名 为 kKNN.py 的 Python 模 块 ， 本 章 使 用 的 所 有 代码 都 在 这 个 文件 中 。 读者 可 以 按照 自 

己 的 习惯 学 习 代码 ， 既 可 以 按照 本 书 学 习 的 进度 ， 在 自己 创建 的 Python 文件 中 编写 代码 ， 也 可 以 直 

0 py 文件 。 我 推荐 读者 从 头 开始 创建 模块 ， 按 照 学 习 的 进度 编写 代码 。 

论 大 家 采用 何 种 方法 ,我 们 现在 已 经 有 了 kNN.py 文 件 。 在 构造 完整 的 k- 近 邻 算法 之 前 , 我 
te 溯 数 ， 在 kNN.py 文 件 中 增加 下 面 的 代码 ; 


from numpy import * 
import operator 


def createDataSet () : 
group = array ([[1.0,1.1], [1.0,1.0], [0,0], [0,0.1]]1) 
labels = ['A','A','B','B'] 
return group, labels 


在 上 面 的 代码 中 , 我 们 导 人 了 两 个 模块 ; 第 一 个 是 科学 计算 包 NumPy; 第 二 个 是 运算 符 模块 ， 
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天 近邻 算法 执行 排序 操作 时 将 使 用 这 个 模块 提供 的 函数 ， 后 面 我 们 将 进一步 介绍 。 

为 了 方便 使 用 createDataSet () 函数 ， 它 创建 数据 集 和 标签 ， 如 图 2-1 所 示 。 然 后 依次 执行 
以 下 步骤 : 保存 KNN.py 文 件 ， 改 变 当 前 路 径 到 存储 KNN.py 文 件 的 位 置 ， 打 开 Python 开 发 环境 。 
无 论 是 Linux、Mac OS 还 是 Windows 都 需要 在 打开 终端 ， 在 命令 提示 符 下 完成 上 述 操作 。 只 要 我 
们 按照 默认 配置 安装 Python, 在 Linux/Mac OS 终端 内 都 可 以 直接 输入 python, 而 在 Windows 命 令 
提示 符 下 需要 输入 c:\Python2.6\python ,exe， 进入 Python 交 互 式 开发 环境 6 

进入 Python 开发 环境 之 后 ， 输 入 下 列 命令 导 人 和 人 上面 编 辑 的 程序 模块 

>>> import KkNN 
上 述 命令 导入 KNN 模 块 。 为 了 确保 输入 相同 的 数据 集 ，KNN 模 块 中 定义 了 函数 createDataSet， 在 
Python 命令 提示 符 下 输入 下 属 命令 : 

>>> group,labels = kNN.createDataSet () 
上 述 命令 创建 了 变量 group 和 lapels, 在 Python 命 令 提 示 符 下 , 输入 变量 的 名 字 以 检验 是 否 正确 
地 定义 变量 : 

>>> group 


atray([[ 1., .1]， 


1 
1, 1],， 
{TQ.a ae Oe Ty 
0.1]]) 
>>> labels 
['A', 'A', 'B', 'B’] 
这 里 有 4 组 数据 ， 每 组 数据 有 两 个 我 们 已 知 的 属性 或 者 特征 值 。 上 面 的 group 和 矩阵 每 行 包含 一 个 
不 同 的 数据 , 我们 可 以 把 它 想象 为 某 个 日 志文 件 中 不 同 的 测量 点 或 者 人 口 。 由 于 人 类 大 脑 的 限制 ， 
我 们 通常 只 能 可 视 化 处 理 三 维 以 下 的 事务 。 因 此 为 了 简单 地 实现 数据 可 视 化 , 对 于 每 个 数据 点 我 
们 通常 只 使 用 两 个 特征 。 
向 量 1abel 包 含 了 每 个 数据 点 的 标签 信息 ， label 包 含 的 元 素 个 数 等 于 group 和 矩阵 行 数 。 这 
里 我 们 将 数据 点 (1，1.1) 定 义 为 类 A， 数 据点 (0, 0.1) 定 义 为 类 B。 为 了 说 明 方便 ， 例 子 中 的 数值 是 
任意 选择 的 ， 并 没有 给 出 轴 标 签 ， 图 2-2 是 带 有 类 标签 信息 的 四 个 数据 点 。 


TF 








=0.2 1 L ) 
-02 0.0 0.2 0.4 


图 2-2 天 近邻 算法 : 带 有 4 个 数据 点 的 简单 例子 
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现在 我 们 已 经 知道 Python 如 何 解析 数据 ， 如 何 加 载 数 据 ， 以 及 KNN 算 法 的 工作 原理 ， 接 下 来 
我 们 将 使 用 这 些 方 法 完成 分 类 任务 到 


2.1.2 ”从 文本 文件 中 解析 数据 2 


本 节 使 用 程序 清单 2-1 的 函数 运行 KNN 算 法 , 为 每 组 数据 分 类 。 这 里 首先 给 出 近邻 算法 的 伪 
代码 和 实际 的 Python 代 码 ， 然 后 详细 地 解释 每 行 代码 的 含义 。 该 函数 的 功能 是 使 用 k- 近 邻 算法 将 | 
每 组 数据 划分 到 某 个 类 中 ， 其 伪 代 码 如 下 ， 


对 未 知 类 别 属性 的 数据 集中 的 每 个 点 依次 执行 以 下 操作 ; 

(1) 计算 已 知 类 别 数据 集中 的 点 与 当前 点 之 间 的 距离 ; 

(2) 按照 距离 递增 次 序 排序 ; 

(3) 选取 与 当前 点 距离 最 小 的 个 点 ; 

(4) 确定 前 K 个 点 所 在 类 别 的 出 现 频率 ; 

(5) 返回 前 K 个 点 出 现 频 率 最 高 的 类 别 作 为 当前 点 的 预测 分 类 。 


Python 函数 classify0() 如 程序 清单 2-1 所 示 。 
程序 清单 2-1 大 近邻 算法 


def classify0 (inxX, dataSet, labels, k): 
dataSetSize = dataSet .shape{0] 


diffMat = tile(inxX, (dataSetSsize,1)) - dataSet 
sqDiffMat = diffMat**2 距离 计算 


sqDistances = SqDiffMat .sum(axis=1) 
distances = sqDistances**0.5 
sortedDpistIndicies = distances.argsort () 


classCount= 加 

ue.) 选择 距离 最 小 

for i in range (Kk) : 的 k 个 点 
voteTIlabel = labels[sortedDpistIndicies [i]] [AS 
classCount [voteIlabel] = classCount .get {voteIlabel,0) + 1 


SortedClassCount = sorted(classCount.iteritems (), 


key=operator.itemgetter(1), reverse=True) 
return sortedClassCount [0] [0] 排序 


classify0() 水 数 有 4 个 输入 参数 :用 于 分 类 的 输入 向 量 是 inX, 输 入 的 训练 样本 集 为 dataSet， 
标签 向 量 为 labels, 最 后 的 参数 kx 表示 用 于 选择 最 近邻 居 的 数目 ， 其 中 标签 向 量 的 元 素数 目 和 拢 
阵 aataset 的 行 数 相同 。 程序 清 单 2-1 使 用 欧 氏 距离 公式 , 计算 两 个 向 量 点 x4 和 x8B 之 间 的 距离 @: 


d= V(x4, —xB) +(xA —xB) 
例如 ， 点 (0, 0) 与 (1, 2) 之 间 的 虐 离 计算 为 ; 
(1-0) +(2—0) 
如 果 数 据 集 存在 4 个 特征 值 ， 则 点 (1 0, 0, 1) 与 (7, 6, 9, 4) 之 间 的 距离 计算 为 : 
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VO- +(6-07 +(9-0) +(4-1) 
计算 完 所 有 点 之 间 的 距离 后 ， 可 以 对 数据 按照 从 小 到 大 的 次 序 排序 。 然 后 ， 确 定 前 k 个 距离 
最 小 元 素 所 在 的 主要 分 类 @,， 输入 总 是 正 整 数 ， 最后， 将 classCount 字 典 分 解 为 元 组 列表 ， 然 后 
使 用 程序 第 二 行 时 入 运算 符 模 块 的 jtemgetter 方 法 ,按照 第 二 个 元 素 的 次 序 对 元 组 进行 排序 @。 


-此 处 的 排序 为 逆序 ， 即 按照 从 最 大 到 最 小 次 序 排序 ， 最 后 返回 发 生 频率 最 高 的 元 素 标 签 。 


为 了 预测 数据 所 在 分 类 ， 在 Python 提 示 符 中 输入 下 列 命令 : 

>>> KkNN.classify0([0,0], group, labels, 3) 

输出 结果 应 该 是 B， 大 家 也 可 以 改变 输入 [0, 0] 为 其 他 值 ， 测 试 程序 的 运行 结果 。 

到 现在 为 止 , 我 们 已 经 构造 了 第 一 个 分 类 器 , 使 用 这 个 分 类 器 可 以 完成 很 多 分 类 任务 。 从 这 
个 实例 出 发 ， 构 造 使 用 分 类 算法 将 会 更 加 容易 。 


2.1.3 如何 测试 分 类 器 


上 文 我 们 已 经 使 用 上 近邻 算法 构造 了 第 一 个 分 类 器 ,也 可 以 检验 分 类 器 给 出 的 答案 是 否 符合 
我 们 的 预期 。 读 者 可 能 会 问 :“ 分 类 器 何 种 情况 下 会 出 错 ?” ”或 者 “答案 是 否 总 是 正确 的 ? ” 答 
案 是 否定 的 ,分 类 器 并 不 会 得 到 百 分 百 正确 的 结果 ,我 们 可 以 使 用 多 种 方法 检测 分 类 器 的 正确 率 。 
此 外 分 类 器 的 性 能 也 会 受到 多 种 因素 的 影响 ,如 分 类 器 设置 和 数据 集 等 。 不 同 的 算法 在 不 同 数据 
集 上 的 表现 可 能 完全 不 同 ， 这 也 是 本 部 分 的 6 章 都 在 讨论 分 类 算法 的 原因 所 在 。 

为 了 测试 分 类 器 的 效果 ,我 们 可 以 使 用 已 知 答案 的 数据 ， 当 然 答案 不 能 告诉 分 类 器 ， 检 验 分 
类 器 给 出 的 结果 是 否 符合 预期 结果 。 通 过 大 量 的 测试 数据 , 我 们 可 以 得 到 分 类 器 的 错误 率 一 一 分 
类 器 给 出 错误 结果 的 次 数 除 以 测试 执行 的 总 数 。 错 误 率 是 常用 的 评估 方法 ,主要 用 于 评估 分 类 器 
在 某 个 数据 集 上 的 执行 效果 。 完 美 分 类 器 的 错误 率 为 0， 最 差分 类 器 的 错误 率 是 1.0， 在 这 种 情况 
下 ， 分 类 器 根本 就 无 法 找到 一 个 正确 答案 。 读 者 可 以 在 后 面 章 节 看 到 实际 的 数据 例子 。 

上 一 节 介 绍 的 例子 已 经 可 以 正常 运转 了 , 但 是 并 没有 太 大 的 实际 用 处 ,本章 的 后 两 节 将 在 现 
实 世 界 中 使 用 -近邻 算法 。 首 先 ， 我 们 将 使 用 k- 近 邻 算 法 改进 约会 网 站 的 效果 ， 然 后 使 用 -近邻 
算法 改进 手写 识别 系统 。 本 书 将 使 用 手写 识别 系统 的 测试 程序 检测 大 近邻 算法 的 效果 。 


2.2 示例 : 使 用 k- 近 邻 算法 改进 约会 网 站 的 配对 效果 


我 的 朋友 海伦 一 直 使 用 在 线 约 会 网 站 寻找 适合 自己 的 约会 对 象 。 尽管 约会 网 站 会 推荐 不 同 的 
人 人选， 但 她 没有 从 中 找到 喜欢 的 人 。 经 过 一 番 总 结 ， 她 发 现 曾 交往 过 三 种 类 型 的 人 : 

口 不 喜欢 的 人 

口 魅力 一 般 的 人 

口 极 具 魅 力 的 人 

尽管 发 现 了 上 述 规律 , 但 海伦 依然 无 法 将 约会 网 站 推荐 的 匹配 对 象 归 人 恰当 的 分 类 。 她 觉得 
可 以 在 周一 到 周 五 约会 那些 魅力 一 般 的 人 ， 而 周末 则 更 喜欢 与 那些 极 具 魅 力 的 人 为 伴 。 海 伦 希望 
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我 们 的 分 类 软件 可 以 更 好 地 帮助 她 将 匹配 对 象 划分 到 确切 的 分 类 中 。 此 外 海伦 还 收集 了 一 些 约会 
网 站 未 曾 记录 的 数据 信息 ， 她 认为 这 些 数据 更 有 助 于 匹配 对 象 的 归 类 。 





i 示例 ， 在 约会 网 站 上 使 用 上 近邻 算法 全 攻 人 2 

(1) 收集 数据 提供 文本 文件 。 

(2) 准备 数据 : 使 用 Python 解析 文本 文件 。 

(3) 分 析 数 据 ; 使 用 Matplotlib 画 二 维 扩散 图 。 

(4) 训练 算法 : 此 步 聂 不 适用 于 太 近 邻 算法 。 

(5) 测试 算法 : 使 用 海伦 提供 的 部 分 数据 作为 测试 样本 。 
测试 样本 和 非 测试 样本 的 区 别 在 于 : 测试 样本 是 已 经 完成 分 类 的 数据 ， 如 果 预 测 分 类 
与 实际 类 别 不 同 ， 则 标记 为 一 个 错误 。 

(6) 使 用 算法 : 产生 简单 的 命令 行程 序 ， 然 后 海伦 可 以 输入 一 些 特征 数据 以 判断 对 方 是 否 
为 自己 喜欢 的 类 型 。 


2.2.1 准备 数据 :从 文本 文件 中 解析 数据 


海伦 收集 约会 数据 已 经 有 了 一 段 时 间 ， 她 把 这 些 数据 存放 在 文本 文件 datingTestSet.txt 中 ， 每 
个 样本 数据 占据 一 行 ， 总 共有 1000 行 。 海 伦 的 样本 主要 包含 以 下 3 种 特征 : 

口 每 年 获得 的 飞行 常客 里 程 数 

口 玩 视频 游戏 所 耗 时 间 百 分 比 

口 每 周 消费 的 冰淇淋 公升 数 

在 将 上 述 特征 数据 输入 到 分 类 器 之 前 , 必须 将 待 处 理 数据 的 格式 改变 为 分 类 器 可 以 接受 的 格 
式 。 在 KNN.py 中 创建 名 为 file2matrix 的 消 数 ， 以 此 来 处 理 输 入 格式 问题 。 该 函数 的 输入 为 文 
件 名 字符 串 ， 输 出 为 训练 样本 矩阵 和 类 标签 向 量 。 

将 下 而 的 代码 增加 到 kNN.py 中 。 


程序 清单 2-2 将 文本 记录 到 转换 NumPy 的 解析 程序 
def file2matrix(filename): 

fr = open (filename) a 得 到 文件 行 数 

arrayOLines = fr.readlines {) 

numberOfLines = len(arrayOLines) 

returnMat = Zeros( (numberofLines,3)) 

classLabelVector = 由 和 是 反日 的 NumPyiE 隆 

index = 0 

for line in arrayOLines 
line = line.strip!{) Os 
listFrombLine = line.split(’\t':) 
returnMat [index,:] = listFromLine[0:3] 
classLabelVector.append (int (listFromLine{[-1])} 
index += 1 

return returnMat,classLabelVector 
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从 上 面 的 代码 可 以 看 到 ，Python 处 理 文本 文件 非常 容易 。 首 先 我 们 需要 知道 文本 文件 包含 多 
少 行 。 打 开 文件 , 得 到 文件 的 行 数 @。 然 后 创建 以 零 填充 的 矩阵 NumPy@ (实际 上 ，NumPy 是 一 
个 二 维 数组 ， 这 里 暂时 不 用 考虑 其 用 途 )。 为 了 简化 处 理 ， 我 们 将 该 矩阵 的 另 一 维度 设置 为 固定 
值 3 ， 你 可 以 按照 自己 的 实际 需求 增加 相应 的 代码 以 适应 变化 的 输入 值 。 循 环 处 理 文件 中 的 每 行 
数据 合 ， 首 先 使 用 函数 1ine .strip() 截取 掉 所 有 的 回 车 字符 ， 然 后 使 用 tab 字 符 \t 将 上 一 步 得 
到 的 整 行 数据 分 割 成 一 个 元 素 列表 。 接 着 ,我 们 选取 前 3 个 元 素 ,将 它们 存储 到 特征 矩阵 中 。Python 
语言 可 以 使 用 索引 值 -1 表 示 列 表 中 的 最 后 一 列 元 素 , 利用 这 种 负 索 引 , 我 们 可 以 很 方便 地 将 列表 
的 最 后 一 列 存储 到 向 量 classLabelVector 中 。 需要 注意 的 是 ， 我 们 必须 明确 地 通知 解释 器 ， 告 
诉 它 列表 中 存储 的 元 素 值 为 整 型 ， 否 则 Python 语言 会 将 这 些 元 素 当 作 字 符 串 处 理 。 以 前 我 们 必须 
自己 处 理 这 些 变量 值 类 型 问题 ， 现 在 这 些 细节 问题 完全 可 以 交 给 NumPy 函 数 库 来 处 理 。 

在 Python 命令 提示 符 下 输入 下 面 命令 : 


>>> reload (kNN) 
>>> datingDataMat,datingLabels = kNN.filie2matrix('datingTestSet .txt') 


使 用 函数 file2matrix 读 取 文件 数据 , 必须 确保 文件 datingTestSet txt 存 储 在 我 们 的 工作 目录 
中 。 此 外 在 执行 这 个 函数 之 前 ， 我 们 重新 加 载 了 kNN.py 模 块 ， 以 确保 更 新 的 内 容 可 以 生效 ， 否 
则 Python 将 继续 使 用 上 次 加 载 的 KNN 模 块 。 

成 功 导入 datingTestSet.txt 文 件 中 的 数据 之 后 ， 可 以 简单 检查 一 下 数据 内 容 。Python 的 输出 结 
果 大 致 如 下 : | 


>>> datingDataMat 


array([[ 7.29170000e+04， 7.10627300e+00， 2.23600000e-01]， 
[ 1.42830000e+04, 2.44186700e+00， 1.90838000e-01], 
[ 7.34750000e+04， 8.31018900e+00， 8.52795000e-01]， 


[ 


[ 
[ 


1.24290000e+04， 
2.52880000e+04， 
4.91800000e+03， 


4.43233100e+00， 
1.31899030e+01, 
3.01112400e+00, 


FF 


.24649000e-01]， 
.05013800e+00] ， 
.90663000e-01]1) 


>>> Qatingbabels [0:20] 
ff3，2，1，1，1，1，3，3，1，3，1，1，2，1，1，1，1，1，2，3] 


现在 已 经 从 文本 文件 中 导 人 了 数据 , 并 将 其 格式 化 为 想 要 的 格式 ， 接 着 我 们 需要 了 解数 据 的 
真实 含义 。 当 然 我 们 可 以 直接 浏览 文本 文件 , 但 是 这 种 方法 非常 不 友好 ， 一般 来 说 , 我们 会 采用 
图 形 化 的 方式 直观 地 展示 数据 。 下 面 就 用 Python 工 具 来 图 形 化 展示 数据 内 容 ， 以 便 辨 识 出 一 些 数 
据 模 式 。 


、 NumPy 数 组 和 Python 数组 1 | 

本 书 将 大 量 使 用 NumPy 数 组 ， 你 既 可 以 直接 在 Python 命 令 行 环境 中 输入 from numpy 
import array 将 其 导入 ， 也 可 以 通过 直接 导入 所 有 NumPy 库 内 容 来 将 其 导入 。 由 于 NumPy 
库 提 供 的 数组 操作 并 不 支持 Python 自 带 的 数组 类 型 ， 因 此 在 编写 代码 时 要 注意 不 要 使 用 错误 的 
数组 类 型 。 





Ww aibbt. com 0 0 






































2.2 示例 ; 使 用 k- 近 邻 算 法 改进 约会 网 站 的 配对 效果 23 





2.2.2 “分析 数据 :使 用 Matplotlib 创建 散 点 图 
首先 我 们 使 用 Matplotlib 制 作 原始 数据 的 散 点 图 ， 在 Python 命令 行 环境 中 ， 输 入 下 列 命令 ; 


>>> import matplotlib 

>>> import matplotlib.pyplot as plt 

>>> fig = plt.figure() 

>>> ax = fig.add_ subplot (111) 

>>> ax.scatter(datingDataMat [:,1], datingDataMat [:,2]) 
>>> plt.show!() 


输出 效果 如 图 2-3 所 示 。 散 点 图 使 用 datingDataMat 和 矩阵 的 第 二 、 第 三 列 数 据 ， 分 别 表示 特征 
值 “ 玩 视频 游戏 所 耗 时 间 百 分 比 ” 和 “每 周 所 消费 的 冰淇淋 公升 数 ”。 


2.0 


be 
un 


游 半 沪 江洲 关于 内 渤 加 出 
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0.0 





10 15 
玩 视频 游戏 所 耗 时 间 百 分 比 
图 2-3 ”没有 样本 类 别 标签 的 约会 数据 散 点 图 。 难 以 辨识 图 中 的 点 究竟 属于 哪个 样本 分 类 


由 于 没有 使 用 样本 分 类 的 特征 值 ， 我 们 很 难 从 图 2-3 中 看 到 任何 有 用 的 数据 模式 信息 。 一 般 
来 说 , 我 们 会 采用 色彩 或 其 他 的 记号 来 标记 不 同样 本 分 类 , 以 便 更 好 地 理解 数据 信息 。Matplotlib 
库 提供 的 scatter 函 数 支 持 个 性 化 标记 散 点 图 上 的 点 。 重新 输入 上 面 的 代码 , 调用 scatter 函 数 
时 使 用 下 列 参 数 : 


>>> ax.scatter(datingDataMat [:,1)], datingDataMat[:,2], 
15.0*array (datingLabels), 15.0*array (datingLabels)) 


上 述 代 码 利 用 变量 datingLabels 存 储 的 类 标签 属性 , 在 散 点 图 上 绘制 了 色彩 不 等 、 尺 寸 不 同 的 
点 。 你 可 以 看 到 一 个 与 图 2-3 类 似 的 散 点 图 。 从 图 2-3 中 ， 我 们 很 难看 到 任何 有 用 的 信息 ， 然 而 由 
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于 图 2-4 利 用 颜色 及 尺寸 标识 了 数据 点 的 属性 类 别 ， 因 而 我 们 基本 上 可 以 从 图 2-4 中 看 到 数据 点 所 
属 三 个 样本 分 类 的 区 域 轮廓。 


2.0 


po 


oo 
1.5 bo 5 


次 求 今 命 匀 兴 于 册 壕 本 舱 





0.0 





玩 栅 频 游戏 所 耗 时 间 再 分 比 因 
图 2-4 带 有 样本 分 类 标签 的 约会 数据 散 点 图 。 虽 然 能 够 比较 容易 地 区 分 数据 点 从 属 类 
别 ， 但 依然 很 难 根据 这 张 图 得 出 结论 性 信息 
本 节 我 们 学 习 了 如 何 使 用 Matplotlib 库 图 形 化 展示 数据 ， 图 2-4 使 用 了 矩阵 属性 列 0 和 1 展示 数 
据 ， 虽 然 可 以 区 别 ， 但 图 2-5 采 用 不 同 的 属性 值 可 以 得 到 更 好 效果 ， 图 中 清晰 地 标识 了 三 个 不 同 
的 样本 分 类 区 域 , 具有 不 同 爱好 的 人 其 类 别 区 域 也 不 同 。 
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区 水 列 囊 


0 20000 40000 60000 80000 100000 
每 年 获取 的 飞行 常客 里 程 数 
图 2-5 每 年 赢得 的 飞行 常客 里 程 数 与 玩 视频 游戏 所 占 百 分 比 的 约会 数据 散 点 图 。 约 会 
数据 有 三 个 特征 ， 通 过 图 中 展示 的 两 个 特征 更 容易 区 分 数据 点 从 属 的 类 别 
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2.2.3 ”准备 数据 : 归 一 化 数值 

表 2-3 给 出 了 提取 的 四 组 数据 ， 如 果 想 要 计算 样本 3 和 样本 4 之 间 的 距离 ， 可 以 使 用 下 面 的 
方法 : 

: /0-677 +(20 000—32 000) +(1.1—0.1) 

我 们 很 容易 发 现 ， 上 面 方程 中 数字 差 值 最 大 的 属性 对 计算 结果 的 影响 最 大 ,也 就 是 说 ,每 年 
获取 的 飞行 常客 里 程 数 对 于 计算 结果 的 影响 将 远 远大 于 表 2-3 中 其 他 两 个 特征 一 玩 视频 游戏 的 
和 每 周 消费 冰淇淋 公升 数 一 一 的 影响 。 而 产生 这 种 现象 的 唯一 原因 , 仅仅 是 因为 飞行 常客 里 程 数 
远大 于 其 他 特征 值 。 但 海伦 认为 这 三 种 特征 是 同等 重要 的 ， 因 此 作为 三 个 等 权重 的 特征 之 一 ， 飞 
行 常客 里 程 数 并 不 应 该 如 此 严重 地 影响 到 计算 结果 。 

表 2-3 ”约会 网 站 原始 数据 改进 之 后 的 样本 数据 
玩 视 频 游戏 所 耗 时 间 百 分 比 ”每 年 获得 的 飞行 常客 里 程 数 ”每 周 消费 的 冰淇淋 公升 数 样本 分 类 


1 0.8 400 0.5 1 
2 12 134 000 0.9 3 
3 0 20 000 Ll 2 
4 67 32 000 0.1 2 


在 处 理 这 种 不 同 取 值 范围 的 特征 值 时 , 我 们 通常 采用 的 方法 是 将 数值 归 一 化 , 如 将 取 值 范围 
处 理 为 0 到 1 或 者 -1 到 1 之 间 。 下 面 的 公式 可 以 将 任意 取 值 范围 的 特征 值 转化 为 0 到 1 区 间 内 的 值 : 


newValue = (oldValue-min)/ (max-min) 


其 中 min 和 max 分 别 是 数据 集中 的 最 小 特征 值 和 最 大 特征 值 。 虽 然 改 变数 值 取 值 范围 增加 了 
分 类 器 的 复杂 度 ， 但 为 了 得 到 准确 结果 ， 我 们 必须 这 样 做 。 我 们 需要 在 文件 kNN.py 中 增加 一 个 
新 函数 autoNorm() ， 该 函数 可 以 自动 将 数字 特征 值 转化 为 0 到 1 的 区 间 。 

程序 清单 2-3 提 供 了 函数 autoNorm() 的 代码 。 


程序 清单 2-3” 归 一 化 特征 值 
def autoNorm(dataSet).: 

minVals = dataSet .min (0) 
maxVals = dataSet .max(0) 
ranges = maxVals - minVals 
normDataSet = zeros (Shape (GataSet) ) 
m = qataSet.shape[0] 
normDataSet = dataSet - tile(minvals, (m,1)) .9 特征 值 相 除 
normDataSet = normDataSet/tile(ranges, (m,1)) 
return normDataSet, ranges, minVvals 


在 函数 autoNorm() 中 ， 我 们 将 每 列 的 最 小 值 放 在 变量 minvals 中 ， 将 最 大 值 放 在 变量 
maxVals 中 ， 其 中 qataset .min(0) 中 的 参数 0 使 得 函数 可 雇 从 列 中 选取 最 小 值 ， 而 不 是 选取 当 
前 行 的 最 小 值 。 然 后 ， 函 数 计算 可 能 的 取 值 范围 ， 并 创建 新 的 返回 矩阵 。 正如 前 面 给 出 的 公式 ， 
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为 了 归 一 化 特征 值 ,我们 必须 使 用 当前 值 减 去 最 小 值 ， 然 后 除 以 取 值 范围 。 需 要 注意 的 是 ,特征 
值 矩 阵 有 1000 x 3 个 值 , 而 minvals 和 range 的 值 都 为 1 x 3。 为 了 解决 这 个 问题 ， 我 们 使 用 NumPy 
库 中 tile () 函数 将 变量 内 容 复制 成 输入 答 阵 同样 大 小 的 矩阵 ， 注 意 这 是 具体 特征 值 相 除 全 ， 而 
对 于 某 些 数值 处 理 软 件 包 ，/ 可 能 意味 着 矩阵 除法 ， 但 在 NumPy 库 中 ， 和 矩阵 除法 需要 使 用 函数 
1inalg.solve (matA,matB)。 


.在 Python 命 令 提 示 符 下 , 重新 加 载 kNN.py 模 块 ， 执行 autoNorm 函 数 ， 检测 函数 的 执行 结果 : 


>>> reload (kNN) 
>>> normMat, ranges, minvals = kNN.autoNorm(datingDataMat) 
>>> normMat 
array ([{ 0.33060119, 0.58918886, 0.69043973] ， 
上 0.491499139， 0.50262471， 0.133468257] ， 
[ 0.34858782, 0.68886842, 0.59540619]， 


0.93077422, 0.52696233, 0.588854661] ， 
.76626481, 0.44109859, 0.88192528]， 


Lo 


[ 
[ 
[ 


0.0975718 ， 0.02096883, 0.02443895]]) 
>>> ranges 
array([ 8.78430000e+04， 2.02823930e+01， 1.69197100e+00] ) 
>>> minValS 
array ([ 0. ， 0 ， 0.001818]) 


这 里 我 们 也 可 以 只 返回 normmat 和 矩阵 ， 但 是 下 一 节 我 们 将 需要 取 值 范 转 和 最 小 值 归 一 化 测试 
数据 。 


2.2.4 测试 算法 : 作为 完整 程序 验证 分 类 器 


上 节 我 们 已 经 将 数据 按照 需求 做 了 处 理 ,本 节 我 们 将 测试 分 类 器 的 效果 ,如 果 分 类 器 的 正确 
率 满足 要 求 , 海伦 就 可 以 使 用 这 个 软件 来 处 理 约会 网 站 提供 的 约会 名 单 了 。 机 器 学 习 算法 一 个 很 
重要 的 工作 就 是 评估 算法 的 正确 率 ， 通常 我 们 只 提供 已 有 数据 的 90% 作 为 训练 样本 来 训练 分 类 
器 ， 而 使 用 其 余 的 10% 数 据 去 测试 分 类 器 ， 检 测 分 类 咒 的 正确 率 。 本 书后 续 章 节 还 会 介绍 一 些 高 
级 方法 完成 同样 的 任务 ， 这 里 我 们 还 是 采用 最 原始 的 做 法 。 需 要 注意 的 是 ，10% 的 测试 数据 应 该 
是 随机 选择 的 ， 由 于 海伦 提供 的 数据 并 没有 按照 特定 目的 来 排序 ， 所 以 我 们 可 以 随意 选择 10% 数 
据 而 不 影响 其 随机 性 。 

前 面 我 们 已 经 提 到 可 以 使 用 错误 率 来 检测 分 类 器 的 性 能 。 对 于 分 类 器 来 说 , 错误 率 就 是 分 类 
器 给 出 错误 结果 的 次 数 除 以 测试 数据 的 总 数 ， 完 美 分 类 器 的 错误 率 为 0， 而 错误 率 为 1.0 的 分 类 咒 
不 会 给 出 任何 正确 的 分 类 结果 。 代 码 里 我 们 定义 一 个 计数 器 变量 ， 每 次 分 类 器 错误 地 分 类 数据 ， 
计数 器 就 加 1， 程 序 执行 完成 之 后 计数 严 的 结果 除 以 数据 点 总 数 即 是 错误 率 。 


为 了 测试 分 类 器 效果 ， 在 kNN.py 文 件 中 创建 函数 aatingclassTest， 该 函数 是 自 包含 的 ， 
你 可 以 在 任何 时 候 在 Python 运行 环境 中 使 用 该 函数 测试 分 类 器 效果 。 在 kNN.py 文 件 中 输入 下 面 的 
程序 代码 。 
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程序 清单 2-4 ”分 类 器 针对 约会 网 站 的 测试 代码 


def datingClassTest():; . 
hoRatio = 0.10 
datingDataMat,datingLabels = file2matrix('dqatingTestSet .txt') 
normMat, ranges, minVvals = autoNorm({datingDataMat)} 
m = normMat.shape [0] 
numTestVecs = int (m*hoRatio) 
errorCount = 0.0 
for i in range (numTestVecs): 
classifierResult = clagssify0 (normMat [i,:],normMat [numTestVecs:m,:],\ 
datingLabels [numTestVecs:m] ,3) 
print "the classifier came back with: %3, the real answer is: gd"\ 
% (classifierResult, datingLabels [i}) 
if (classifierResult != datingLabels [il): errorCount += 1.0 
print “the total error rate is: %f'" % {errorCount/float (numTestVvecs)) 


函数 aatingcLassTest 如 程序 清单 2-4 所 示 , 它 首 先 使 用 了 file2matrix 和 autoNorm() 谤 
数 从 文件 中 读 取 数据 并 将 其 转换 为 归 一 化 特征 值 。 接 着 计算 测试 向 量 的 数量 ， 此 步 决定 了 
normMat 门 量 中 哪些 数据 用 于 测试 ， 哪些 数据 用 于 分 类 器 的 训练 样本 ; 然后 将 这 两 部 分 数据 输入 
到 原始 kKNN 分 类 器 函数 classify0。 最 后 ,函数 计算 错误 率 并 输出 结果 。 注意 此 处 我 们 使 用 原始 
分 类 器 , 本 章 花 费 了 大 量 的 篇 幅 在 讲解 如 何 处 理 数 据 ,， 如何 将 数据 改造 为 分 类 器 可 以 使 用 的 特征 
值 。 得 到 可 靠 的 数据 同样 重要 ， 本 书后 续 的 章节 将 介绍 这 个 主题 。 

在 Python 命令 提示 符 下 重新 加 载 KNN 模 块 ， 并 输入 kNN ， 9 二 和 执行 分 类 器 
测试 程序 ， 我 们 将 得 到 下 面 的 输出 结果 ， 


>>> kNN.datingClassTest () 
the classifier came back with: 1, the real answer is:; 1 
the classifier came back with: 2, the real answer is:; 2 


the classifier came back with: 1, the real answer’ ig: 
the classifier came back with: 2, the real answer is: 
the classifier came back with: 3, the real answer is: 
the classifier came back with: 3, the real answer is: 
the classifier came back with: 2, the real answer is: 
the total error rate is: 0.024000 


分 类 器 处 理 约会 数据 集 的 错误 率 是 2.4%， 这 是 一 个 相当 不 错 的 结果 。 我 们 可 以 改变 函数 
datingClassTest 内 变量 hoRatio 和 和 变量 x 的 值 , 检测 错误 率 是 否 随 着 变量 值 的 变化 而 增加 。 依 
赖 于 分 类 算法 、 数 据 集 和 程序 设置 ， 分 类 器 的 输出 结果 可 能 有 很 大 的 不 同 。 

这 个 例子 表明 我 们 可 以 正确 地 预测 分 类 , 错误 率 仅 仅 是 2.4%。 海伦 完全 可 以 输入 未 知 对 象 的 
属性 信息 ， 由 分 类 软件 来 帮助 她 判定 某 一 对 象 的 可 交往 程度 ， 讨厌 、 一 般 喜 欢 、 非 常 喜欢 。 


2.2.5 ”使 用 算法 ， 构 建 完 整 可 用 系统 


上 上面 我 们 已 经 在 数据 上 对 分 类 器 进行 了 测试 , 现在 终于 可 以 使 用 这 个 分 类 器 为 海伦 来 对 人 们 
分 类 。 我 们 会 给 海伦 一 小 段 程 序 ， 通 过 该 程序 Ce 
程序 会 给 出 她 对 对 方 喜欢 程度 的 预测 值 。 
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将 下 列 代码 加 入 到 KNN.py 并 重新 载 人 kNN。 
程序 清单 2-5 ”约会 网 站 预测 函数 


. def classifyPerson(): 
resuitList = ['not at all','in small doses'’, 'in large doses'] 
percentTats = float (raw_input (\ 
upercentage of time spent playing video games?")) 

ffMiles = float(raw input ("frequent flier miles earned Pet year?'")) 
iceCream = float (raw input ("liters of ice cream consumed Per year?")) 
datingDataMat,datingLabels = file2matrix('datingTestSet2.txt') 
normMat, ranges, minVvals = autoNorm(datingDataMat) 
inArr = array ({ffMiles, percentTats, iceCream]) 
classifierResult = classify0((inArr-\ 

minVvals) /ranges, normMat, datingLabels, 3) 
print "You will probably like this person: “,\. 

resultListl[lclassifierResult - 1] 


上 述 程序 清单 中 的 大 部 分 代码 我 们 在 前 面 都 见 过 。 唯 一 新 加 入 的 代码 是 函数 raw_input ()。 
该 函数 允许 用 户 输 入 文本 行 命令 并 返回 用 户 所 输入 的 命令 。 为 了 解 程序 的 实际 运行 效果 , 输入 如 
下 命令 ; 


>>> KkNN ,classifyperson () 

percentage of time spent Playing video games?10 
frequent flier miles earned per year?10000 

liters of ice cream consumed per year?0.5 

You will probably like this person: in small doses 


目前 为 止 ， 我 们 已 经 看 到 如 何在 数据 上 构建 分 类 器 。 这 里 所 有 的 数据 让 人 看 起 来 都 很 容易 ， 
但 是 如 何在 人 不 太 容 易 看 懂 的 数据 上 使 用 分 类 器 呢 ? 从 下 一 节 的 例子 中 , 我 们 会 看 到 如 何在 二 进 
制 存储 的 图 像 数据 上 使 用 kNN。 


2.3 示例 : 手写 识别 系统 


本 节 我 们 一 步 步 地 构造 使 用 上 近邻 分 类 器 的 手写 识别 系统 。 为 了 简单 起 见 ， 这 里 构造 的 系统 
只 能 识别 数字 0 到 9， 参 见 图 2.6。 需 要 识别 的 数字 已 经 使 用 图 形 处 理 软件 ， 处 理 成 具有 相同 的 色 
彩 和 大 小 ?， 宽 高 是 32 像 素 x 32 像 素 的 黑白 图 像 。 尽 管 采用 文本 格式 存储 图 像 不 能 有 效 地 利用 内 
存 空间 ， 但 是 为 了 方便 理解 ， 我 们 还 是 将 图 像 转换 为 文本 格式 。 


f 





Ts 示例 ， 使 用 k- 近 邻 算法 的 手写 识别 系统 
(1) 收集 数据 ， 提供 文本 文件 。 
(2) 准备 数据 ， 编写 函数 classify0 () ， 将 图 像 格式 转换 为 分 类 器 使 用 的 list 格 式 。 
(3) 分 析 数 据 ， 在 Python 命令 提示 符 中 检查 数据 ， 确 保 它 符合 要 求 。 





@ 该 数据 集合 修改 自 “ 手 写 数字 数据 集 的 光学 识别 ”一 文中 的 数据 集合 ,该 文登 载 于 2010 年 10 月 3 日 的 UCI 机 器 学 习 
资料 库 中 http://archive.ics.uci.edu/ml。 作 者 是 土耳其 伊斯坦布尔 海峡 大 学 计算 机 工程 系 的 E. Alpaydin 与 C. Kaynak。 
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(4) 训练 算法 ， 此 步骤 不 适用 于 矿 近 邻 算法 。 

(5) 测试 算法 ， 编写 函数 使 用 提供 的 部 分 数据 集 作 为 测试 样本 ， 测 试 样本 与 非 测试 样本 
的 区 别 在 于 测试 样本 是 已 经 完成 分 类 的 数据 ， 如 果 预 测 分 类 与 实际 类 别 不 同 ， 则 标记 
为 一 个 错误 。 

(6) 使 用 算法 : 本 例 没有 完成 此 步骤 ， 若 你 感 兴趣 可 以 构建 完整 的 应 用 程序 ， 从 图 像 中 提 
取 数 字 ， 并 完成 数字 识别 ， 美 国 的 邮件 分 栋 系 统 就 是 一 个 实际 运行 的 类 似 系 统 。 


2.3.1 ”准备 数据 ， 将 图 像 转换 为 测试 向 量 


实际 图 像 存 储 在 第 2 章 源 代码 的 两 个 子 目录 内 目录 trainingDigits 中 包含 了 大 约 2000 个 例子 ， 
每 个 例子 的 内 容 如 图 2-6 所 示 , 每 个 数字 大 约 有 200 个 样本 ; 目录 testDigits 中 包含 了 大 约 900 个 测试 
数据 。 我 们 使 用 目录 trainingDigits 中 的 数据 训练 分 类 器 ， 使 用 目录 testDigits 中 的 数据 测试 分 类 器 
的 效果 。 两 组 数据 没有 覆盖 ， 你 可 以 检查 一 下 这 些 文件 夹 的 文件 是 否 符 合 要 求 。 
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图 2-6 手写 数字 数据 集 的 例子 


为 了 使 用 前 面 两 个 例子 的 分 类 器 ， 我 们 必须 将 图 像 格 式 化 处 理 为 一 个 向 量 。 我 们 将 把 一 个 32 x 
32 的 二 进 制 图 像 矩 阵 转换 为 1 x 1024 的 向 量 ， 这 样 前 两 节 使 用 的 分 类 器 就 可 以 处 理 数字 图 像 信息 了 。 

我 们 首先 编写 一 段 函数 img2vector ， 将 图 像 转 换 为 向 量 ; 该 函数 创建 1 X 1024 的 NumPy 数 
组 , 然后 打开 给 定 的 文件 , 循环 读 出 文件 的 前 32 行 ， 并 将 每 行 的 头 32 个 字符 值 存储 在 NumPy 数 组 
中 ， 最 后 返回 数组 。 


def img2vector (filename}): 

returnVect = zeros((1,1024)) 
fr = open (filename) 
for i in range(32): 

lineStr = fr.readline() 

for j in range (32): 

returnVvect {0,32*i+j}) = int (lineSstr{j})) 

return returnvect 
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将 上 述 代码 输入 到 KNN.py 文 件 中 ,在 Python 命令 行 中 输入 下 列 命令 测试 img2vector 函 数 ， 
然后 与 文本 编辑 器 打开 的 文件 进行 比较 : | 


>>> testVector = kNN.img2vector{('trestDigits/0 13.txt') 

>>> testVector[0,0:31} 

array({ 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0,, 
Qe -LS, Lov a eo, WO Or SO “Qe Qs 0 0.， 0.， 
O57 0 

>>> 七 esStVector [0,32;63] 


array([ 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 
二 
OO 0 we 


2.3.2 ”测试 算法 : 使 用 -近邻 算法 识别 手写 数字 


节 我 们 已 经 将 数据 处 理 成 分 类 器 可 以 识别 的 格式 , 本 节 我 们 将 这 些 数据 输入 到 分 类 器 , 检 
Ra 和 效果。 程序 清单 2-6 所 示 的 自 包 含 通 数 handwritingclassTest () 是 测试 分 类 器 
的 代码 ， 将 其 写 人 kNN.py 文 件 中 。 在 写 人 这 些 代码 之 前 ， 我 们 必须 确保 将 from os import 
1istdir 写 人 文件 的 起 始 部 分 ， 人 它 可 以 列 
出 给 定 目录 的 文件 名 。 


程序 清单 2-6 手写 数字 识别 系统 的 测试 代码 


def handwritingClassTest () : 
hwLabels = {1 时 获取 目录 内 容 
trainingFileList = listdir(!trainingDigits')} 
m= len(trainingFileList) 
trainingMat = zeros((m,1024)) 
for i in range(m): 


fileNameStr = trainingrileList [il Es 
filestr = fileNameStr.split{('.') [0] 甩 从 文件 名 解析 分 类 数字 
~ classNumSstr = int (filestr.split(" ') {0]) 


hwLabels.append (classNumStr) 
trainingMat [i,:] = img2vector('trainingDigits/$s' % fileNameStr) 
testrileList = listdir('testDigits') 
errorCount = 0.0 
mTest = len(testrileList) 
for i in range (mTest): 
fileNameStr = testFileList [i] 
filestr = fileNameStr.split('.') [0] 
classNumstr = int(filestr.split('_') [0]) 
vectorUnderTest = img2vector('testDigits/%s' % fileNameStr) 
classifierResult = classify0 (vectorUnderTest, \ 
trainingMat, hwLabels, 3) 
print "the classifier came back with: %d, the real answer is: gd"\ 
% (classifierResult, classNumStr) 
if (classifierResult !i= classNumStr): errorCount += 1.0 
print "\nthe total number of errors is: %d* % errorCount 
print "\nthe total error rate is: %f'" % (errorCount/float (mTest)) 


在 程序 清单 2-6 中 ， 将 trainingDigits 自 录 中 的 文件 内 容 存储 在 列表 中 人 @， 然 后 可 以 得 到 目录 中 有 
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多 少 文件 ， 并 将 其 存储 在 变量 m 中 。 接 着 ， 代 码 创建 一 个 m 行 1024 列 的 训练 矩阵 ， 该 矩阵 的 每 行 数 
据 存储 一 个 图 像 。 我 们 可 以 从 文件 名 中 解析 出 分 类 数字 @。 该 目录 下 的 文件 按照 规则 命名 ,如 文件 
9_45.txt 的 分 类 是 9， 它 是 数字 9 的 第 45 个 实例 。 然 后 我 们 可 以 将 类 代码 存储 在 hwuabels 向 量 中 , 使 
用 前 面 讨论 的 jmg2vector 函 数 载 信 图像。 在 下 一 步 中 ， 我 们 对 testDigits 目 录 中 的 文件 执行 相似 的 
操作 ， 不 同 之 处 是 我 们 并 不 将 这 个 目录 下 的 文件 载 人 矩阵 中 ， 而 是 使 用 classify0 () 函数 测试 该 
目录 下 的 每 个 文件 。 由 于 文件 中 的 值 已 经 在 0 和 1 之 间 , 本 节 并 不 需要 使 用 2.2 节 的 autoNorm() 函数 。 

在 Python 命令 提示 符 中 输入 kNN.handwritingclassTest() ， 测 试 该 函数 的 输出 结果 。 依 
赖 于 机 器 速度 ， 加 载 数据 集 可 能 需要 花费 很 长 时 间 ， 然后 函数 开始 依次 测试 每 个 文件 ， 输 出 结果 
如 下 所 示 : 


>>> kNN.handwritingClassTest () 
the classifier came back with: 0, the real answer is: 0 
the classifier came back with: 0, the real answer is: 0 


一 


，the real answer is: 
, the real answer is: 
the real answer is: 
,， the real answer is: 
,， the real answer is: 
, the real answer is: 


the classifier came back with: 
the classifier came back with: 
the classifier came back with: 
the classifier came back with: 
the classifier came back with: 
the classifier came back with: 


OD oJ 
OVO 


the classifier came back with: 9, the real answer is: 9 
the total number of errors is: 11 
the total error rate is: 0.011628 


大 近邻 算法 识别 手写 数字 数据 集 , 错误 率 为 1.2%。 改变 变量 k 的 值 、 修 改 函 数 handqwriting- 
classTest 随 机 选取 训练 样本 、 改 变 训练 样本 的 数目 ， 都 会 对 -近邻 算法 的 错误 率 产生 影响 , 感 
兴趣 的 话 可 以 改变 这 些 变量 值 ， 观 察 错误 率 的 变化 。 

实际 使 用 这 个 算法 时 , 算法 的 执行 效率 并 不 高 。 因 为 算法 需要 为 每 个 测试 向 量 做 2000 次 距离 
计算 ,每 个 距离 计算 包括 了 1024 个 维度 浮 点 运算 ， 总 计 要 执行 900 次 ， 此 外 ， 我 们 还 需要 为 测试 
向 量 准备 2MB 的 存储 空间 。 是 否 存 在 一 种 算法 减少 存储 空间 和 计算 时 间 的 开销 呢 ?”k 决 策 树 就 是 
大 近邻 算法 的 优化 版 ， 可 以 节省 大 量 的 计算 开销 。 


2.4 ”本 章 小 结 


k- 近 邻 算法 是 分 类 数据 最 简单 最 有 效 的 算法 ， 本 章 通过 两 个 例子 讲述 了 如 何 使 用 -近邻 算法 
构造 分 类 器 。 大 近邻 算法 是 基于 实例 的 学 习 ， 使 用 算法 时 我 们 必须 有 接近 实际 数据 的 训练 样本 数 
据 。 大 近邻 算法 必须 保存 全 部 数据 集 ， 如 果 训 练 数 据 集 的 很 大 ,必须 使 用 大 量 的 存储 空间 。 此 外 ， 
由 于 必须 对 数据 集中 的 每 个 数据 计算 距离 值 ， 实 际 使 用 时 可 能 非常 耗 时 。 

上 近邻 算法 的 另 一 个 缺陷 是 它 无 法 给 出 任何 数据 的 基础 结构 信息 ， 因 此 我 们 也 无 法 知晓 平均 
实例 样本 和 上 典型 实例 样本 具有 什么 特征 。 le 该 算法 
可 以 解决 这 个 问题 。 
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本 章 内 容 

口 决策 树 简介 

口 在 数据 集中 度量 一 致 性 
口 使 用 递归 构造 决策 树 

口 使 用 Matplotlib 绘 制 树 形 图 


你 是 否 玩 过 二 十 个 问题 的 游戏 ， 游 戏 的 规则 很 简单 :参与 游戏 的 一 方 在 脑海 里 想 某 个 事物 ， 
其 他 参与 者 向 他 提问 题 ， 只 允许 提 20 个 问题 , 问题 的 答案 也 只 能 用 对 或 错 回答 。 问 问题 的 人 通过 
推断 分 解 ， 逐步 缩小 待 猪 测 事物 的 范围 。 决 策 树 的 工作 原理 与 20 个 问题 类 似 , 用 户 输入 一 系列 数 
据 ， 然 后 给 出 游戏 的 管 案 。 

我 们 经 常 使 用 决策 树 处 理 分 类 问题 ,近来 的 调查 表明 决策 树 也 是 最 经 常 使 用 的 数据 挖掘 算法 ?。 
它 之 所 以 如 此 流行 ,一 个 很 重要 的 原因 就 是 使 用 者 基本 上 不 用 了 解 机 器 学 习 算法 ， 也 不 用 深究 它 
是 如 何 工作 的 。 

如 果 你 以 前 没有 接触 过 决策 树 ， 完 全 不 用 担心 , 它 的 概念 非常 简单 。 即 使 不 知道 它 也 可 以 通 
过 简单 的 图 形 了 解 其 工作 原理 ， 图 3-1 所 示 的 流程 图 就 是 一 个 决策 树 ， 正 方形 代表 判断 模块 
(decision block )， 椭 圆 形 代 表 终 止 模块 (terminating block )， 表 示 已 经 得 出 结论 ， 可 以 终止 运行 。 
从 判断 模块 引出 的 左右 箭头 称 作 分 支 (branch )， 它 可 以 到 达 另 一 个 判断 模块 或 者 终止 模块 。 图 
3-1 构 造 了 一 个 假想 的 邮件 分 类 系统 ， 它 首先 检测 发 送 邮 件 域名 地 址 。 如 果 地 址 为 
myEmployercom， 则 将 其 放 在 分 类 “无 聊 时 需要 阅读 的 邮件 ”中 。 如 果 邮 件 不 是 来 自 这 个 域名 ， 
则 检查 邮件 内 容 里 是 否 包含 单词 曲棍球 ,如果 包 含 则 将 邮件 归 类 到 “需要 及 时 处 理 的 朋友 邮件 ”， 
如 果 不 包含 则 将 邮件 归 类 到 “无 需 阅读 的 垃圾 邮件 ”。 

第 2 章 介绍 的 近邻 算法 可 以 完成 很 多 分 类 任务 ， 但 是 它 最 大 的 缺点 就 是 无 法 给 出 数据 的 内 
在 含义 ， 决 策 树 的 主要 优势 就 在 于 数据 形式 非常 容易 理解 。 

本 章 构造 的 决策 树 算法 能 够 读 取 数据 集合 ， 构 建 类 似 于 图 3-1 的 决策 树 。 决 策 树 很 多 任务 都 
是 为 了 数据 中 所 蕴含 的 知识 信息 ,因此 决策 树 可 以 使 用 不 熟悉 的 数据 集合 , 并 从 中 提取 出 一 系列 





@D Giovanni Seni and John Elder, Ensemble Methods in Data Mining: Improving Accuracy Through Combining Predictins, 
Synthesis Lectures on Data Mining and Knowledge Discovery (Morgan and Claypool, 2010), 28. 
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规则 ， 机 器 学 习 算 法 最 终 将 使 用 这 些 机 器 从 数据 集中 创造 的 规则 。 专 家 系统 中 经 常 使 用 决策 树 ， 
而 且 决 策 树 给 出 结果 往往 可 以 匹敌 在 当前 领域 具有 几 十 年 工作 经 验 的 人 类 专家 。 









发 送 邮件 域名 地 址 为 ; 


myEmployer.com 











无 聊 时 需要 
阅读 的 邮件 





包含 单词 “ 曲 棍 
球 ” 的 邮件 
希 要 及 时 处 理 的 

朋友 邮件 


图 3-! 流程 图 形式 的 决策 树 


现在 我 们 已 经 大 致 了 解 了 决策 树 可 以 完成 哪些 任务 , 接 下 来 我 们 将 学 习 如 何 从 一 堆 原 始 数 据 
中 构造 决策 树 。 首 先 我 们 讨论 构造 决策 树 的 方法 ， 以 及 如 何 编写 构造 树 的 Python 代 码 ; 接着 提出 
一 些 度量 算法 成 功率 的 方法 ;最 后 使 用 递归 建立 分 类 器 ， 并 且 使 用 Matplotlib 绘 制 决 策 树 图 。 构 
造 完成 决策 树 分 类 器 之 后 , 我 们 将 输入 一 些 隐 形 眼 镜 的 处 方 数 据 , 并 由 决策 树 分 类 器 预测 需要 的 
镜片 类 型 。 


3.1 决策 树 的 构造 






无 需 阅读 的 
垃圾 邮件 






决策 树 
优点 : 计算 复杂 度 不 高 ， 输 出 结果 易 于 理解 ， 对 中 间 值 的 缺失 不 敏感 ， 可 以 处 理 不 相关 特 
征 数据 。 
缺点 ; 可 能 会 产生 过 度 匹 配 问题 。 
适用 数据 类 型 : 数值 型 和 标 称 型 。 


本 节 将 一 步 步 地 构造 决策 树 算法 , 并 会 涉及 许多 有 趣 的 细节 。 首 先 我 们 讨论 数学 上 如 何 使 用 
信息 论 划分 数据 集 ， 然 后 编写 代码 将 理论 应 用 到 具体 的 数据 集 上 ， 最 后 编写 代码 构建 决策 树 。 

在 构造 决策 树 时 , 我 们 需要 解决 的 第 一 个 问题 就 是 ,当前 数据 集 上 哪个 特征 在 划分 数据 分 类 
时 起 决定 性 作用 。 为 了 找到 决定 性 的 特征 ， 划 分 出 最 好 的 结果 , 我们 必须 评估 每 个 特征 。 完 成 测 
试 之 后 ,原始 数据 集 就 被 划分 为 几 个 数据 子 集 。 这 些 数据 子 集会 分 布 在 第 一 个 决策 点 的 所 有 分 支 
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上 。 如 果 某 个 分 支 下 的 数据 属于 同一 类 型 , 则 当前 无 需 阅读 的 垃圾 邮件 已 经 正确 地 划分 数据 分 类 ， 
无 需 进一步 对 数据 集 进 行 分 割 。 如 果 数 据 子 集 内 的 数据 不 属于 同一 类 型 ， 则 需要 重复 划分 数据 子 
集 的 过 程 。 如 何 划分 数据 子 集 的 算法 和 划分 原始 数据 集 的 方法 相同 , 直到 所 有 具有 相同 类 型 的 数 
据 均 在 一 个 数据 子 集 内 。 
创建 分 支 的 伪 代 码 函 数 createBranch () 如 下 所 示 : 
检测 数据 集中 的 每 个 子 项 是 否 属于 同一 分 类 : 
If so return 类 标签 ; 





Else 
寻找 划分 数据 集 的 最 好 特征 
划分 数据 集 
创建 分 支 节点 
for 每 个 划分 的 子 集 
调用 函数 createBranch 并 增加 返回 结果 到 分 支 节点 中 
return 分 支 节点 


上 面 的 伪 代 码 createBranch 是 一 个 递归 函数 ， 在 倒数 第 二 行 直 接 调用 了 它 自己 。 后 面 我 们 
将 把 上 面 的 伪 代 码 转换 为 Python 代码 ， 这 里 我 们 需要 进一步 了 解 算法 是 如 何 划分 数据 集 的 。 


决策 树 的 一 般 流程 
(1) 收集 数据 : 可 以 使 用 任何 方法 。 
(2) 准备 数据 ; 树 构造 算法 只 适用 于 标 称 型 数据 ， 因 此 数值 型 数据 必须 离散 化 。 
(3) 分 析 数 据 ， 可 以 使 用 任何 方法 ， 构 造 树 完成 之 后 ， 我 们 应 该 检查 图 形 是 否 符合 预期 。 
(4) 训练 算法 构造 树 的 数据 结构 。 
(5) 测试 算法 : 使 用 经 验 树 计算 错误 率 。 
(6) 使 用 算法 : 此 步骤 可 以 适用 于 任何 监督 学 习 算 法 ， 而 使 用 决策 树 可 以 更 好 地 理解 数据 
的 内 在 含义 。 


一 些 决 策 树 算 法 采用 二 分 法 划分 数据 , 本 书 并 不 采用 这 种 方法 。 如 果 依 据 某 个 属性 划分 数据 
将 会 产生 4 个 可 能 的 值 ,我 们 将 把 数据 划分 成 四 块 ， 并 创建 四 个 不 同 的 分 支 。 本 书 将 使 用 ID3 算 法 
划分 数据 集 ， 该 算法 处 理 如 何 划分 数据 集 ， 何 时 停止 划分 数据 集 ( 进一步 的 信息 可 以 参见 
http:/en.wikipedia.org/wiki/ID3_ algorithm。 每 次 划分 数据 集 时 我 们 只 选取 一 个 特征 属性 ， 如 果 训 
练 集中 存在 20 个 特征 ， 第 一 次 我 们 选择 哪个 特征 作为 划分 的 参考 属性 呢 ? 

表 3-1 的 数据 包含 5 个 海洋 动物 ， 特 征 包 括 : 不 浮 出 水 面 是 否 可 以 生存 ， 以 及 是 否 有 脚 践 。 我 
们 可 以 将 这 些 动物 分 成 两 类 : 鱼 类 和 非 鱼 类 。 现在 我 们 想 要 决定 依据 第 一 个 特征 还 是 第 二 个 特征 
划分 数据 。 在 回答 这 个 问题 之 前 , 我 们 必须 采用 量化 的 方法 判断 如 何 划分 数据 。 下 一 小 节 将 详细 
讨论 这 个 问题 。 
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表 3-1 海洋 生物 数据 








不 浮 出 水 面 是 否 可 以 生存 是 否 有 脚 践 属于 鱼 类 
1 是 是 是 
2 是 是 是 
3 是 香 否 本 
4 否 是 否 3 
5 否 是 否 


3.1.1 ”信息 增益 


划分 数据 集 的 大 原则 是 ， 将 无 序 的 数据 变 得 更 加 有 序 。 我 们 可 以 使 用 多 种 方法 划分 数据 集 ， i 
但 日 是 每 种 方法 都 有 各 自 的 优 缺 点 。 组织 杂乱 无 章 数 据 的 一 种 方法 就 是 使 用 信息 论 度量 信息 , 信息 
论 是 量化 处 理 信息 的 分 支 科学 。 我 们 可 以 在 划分 数据 之 前 使 用 信息 论 量 化 度量 信息 的 内 容 。 
在 划分 数据 集 之 前 之 后 信息 发 生 的 变化 称 为 信息 增益 , 知道 如 何 计算 信息 增益 , 我 们 就 可 以 
计算 每 个 特征 值 划 分 数据 集 获得 的 信息 增益 ， 获 得 信息 增益 最 高 的 特征 就 是 最 好 的 选择 。 
在 可 以 评测 哪 种 数据 划分 方式 是 最 好 的 数据 划分 之 前 , 我 们 必须 学 习 如 何 计算 信息 增益 。 集 
合 信息 的 度量 方式 称 为 香农 炳 或 者 简称 为 粹 ， 这 个 名 字 来 源 于 信息 论 之 父 克 劳 德 . 香农。 


BE pa 
es 人 请， 0 

《财富 公式 》 一 书 中 是 这 样 描写 克 劳 德 ， 香 农 的 ， 
“由 水 实验 宣 和 MIT 有 很 多 人 将 涯 农 和 爱 因 斯 进 相提并论 ， 而 其 他 人 则 认为 这 种 对 比 是 不 

公平 的 对 香农 是 不 公平 的 。” ， 


如 果 看 不 明白 什么 是 信息 增益 ( information gain ) 和 粹 (entropy )， 请 不 要 着 急 一 一 它们 自 
诞生 的 那 一 天 起 ， 就 注定 会 令 世 人 十 分 费解 。 克 劳 德 ， 香农 写 完 信 息 论 之 后 ,约翰 ， 冯 … 诺 依 
曼 建 议 使 用 “ 粹 ”这 个 术语 ， 因 为 大 家 都 不 知道 它 是 什么 意思 。 

炳 定义 为 信息 的 期 望 值 ， 在 明晰 这 个 概念 之 前 ,我 们 必须 知道 信息 的 定义 。 如 果 待 分 类 的 事 
务 可 能 划分 在 多 个 分 类 之 中 ， 则 符号 x 的 信息 定义 为 

1(%) 到 -log,p(%;) 
其 中 p(x) 是 选择 该 分 类 的 概率 。 
为 了 计算 炉 ， 我 们 需要 计算 所 有 类 别 所 有 可 能 值 包含 的 信息 期 望 值 ， 通 过 下 面 的 公式 得 到 ，; 


H=-2, p(x)logp(%;) 





Q@ 威廉 ' 庞 德 斯 通 的 《财富 公式 : 击败 赌场 和 华尔街 的 不 为 人 知 的 科学 投注 系统 》( Fortune's Formula: The Untold 
Story of the Scientific Betting System that Beat the. Casinos and Wall Street ) [Hill and Wang，2005] 第 15 页 。 
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小: 其 中 是 分 类 的 数目 。 
加 下 面 我 们 将 学 习 如 何 使 用 Python 计 算 信息 炉 ， 创 建 名 为 trees.py 的 文件 ， 将 程序 清单 3-1 的 代 
码 内 容 录 人 到 trees.py 文 件 中 ， 此 代码 的 功能 是 计算 给 定数 据 集 的 粮 。 


| 程序 清单 3-1 计算 给 定数 据 集 的 香农 业 
1 1 from math import log 


1 | def calcShannonEnt (dataSet): 
numEntries = len(dataSset) 
labelCounts = {} 
for featVec in QataSet : 
currentLabel = featVec{-1] 为 所 有 可 能 分 
if currentLabel not in labelCounts .keys() : 类 创建 字典 
labelCounts [currentLabel] = 0 
| labelCounts {currentLabel] += 1 
~ shannonEnt = 0.0 
| for key in labelCounts: 
[ prob = float (labelCounts [key] ) /numEntries 0 以 2 为 底 求 对 数 
册 ShannonEnt -= prob * log (prob,2) 
| return shannonEnt 


程序 清单 3-1 的 代码 非常 简单 。 首 先 ， 计 算数 据 集中 实例 的 总 数 。 我 们 也 可 以 在 需要 时 再 计 
算 这 个 值 , 但 是 由 于 代码 中 多 次 用 到 这 个 值 , 为 了 提高 代码 效率 , 我 们 显 式 地 声明 一 个 变量 保存 
实例 总 数 。 然 后 ,创建 一 个 数据 字典 , 它 的 键 值 是 最 后 一 列 的 数值 @。 如 果 当 前 键 值 不 存在 ， 则 
ss 扩展 字典 并 将 当前 键 值 加 入 字典 。 每 个 键 值 都 记录 了 当前 类 别 出 现 的 次 数 。 最 后 , 使 用 所 有 类 标 
i ”” 签 的 发 生 频 率 计 算 类 别 出 现 的 概率 。 我 们 将 用 这 个 概率 计算 香农 粹 @， 统计 所 有 类 标签 发 生 的 次 


数 。 下 面 我 们 看 看 如 何 使 用 焙 划 分 数据 集 。 
在 trees.py 文 件 中 ， 我 们 可 以 利用 createDataset () 函数 得 到 表 3-1 所 示 的 简单 色 鉴 定数 据 


集 ， 你 可 以 输入 自己 的 createDataSet () 函数 ; 


def createDatasSet () : 
dataset = [{i, 1, 'yes’'], 
| ， [1, 1, 'yes'], 
[1, 0, 'no'], 

[0, 1; 'no'], 

[0, 1, 'no']] 
1abels = ['no surfacing', 'fliippers’'] 
return dataset, labels 


在 Python 命令 提示 符 下 输入 下 列 命令 : 


| >>> reload (trees .py) 

i >>> myDat, labels=trees.createDataSet () 

>>> myDat | 

[{1i, 1, 'yes'], [1, 1, 'yes'], [1i, 0, 'no']}, [0, 1, 'no'], [0, 1, 'no']) 
>>> trees .calcShannonEnt (myDat) 

0 . 97095059445466858 


炳 越 高 , 则 混合 的 数据 也 越 多 , 我 们 可 以 在 数据 集中 添加 更 多 的 分 类 , 观察 炳 是 如 何 变化 的 。 
这 里 我 们 增加 第 三 个 名 为 maybe 的 分 类 ， 测 试 的 变化 ; 
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>>> myDat (0] [-1]='maybe' 

>>> myDat 

[[1i, 1, ‘'maybe'], [1, 1, 'yes'], {1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']] 
>>> trees.calcSshannonEnt (myDat) 

1.3709505944546687 


得 到 粹 之 后 , 我 们 就 可 以 按照 获取 最 大 信息 增益 的 方法 划分 数据 集 ， 下 一 节 我 们 将 具体 学 习 
如 何 划 分 数据 集 以 及 如 何 度量 信息 增益 。 

另 一 个 度量 集合 无 序 程度 的 方法 是 基尼 不 纯度 ?( Gini impurity )， 简 单 地 说 就 是 从 一 个 数据 
集中 随机 选取 子 项 ,度量 其 被 错误 分 类 到 其 他 分 组 里 的 概率 。 本 书 不 采用 基尼 不 纯度 方法 , 这 里 
就 不 再 做 进一步 的 介绍 。 下 面 我 们 将 学 习 如 何 划 分 数据 集 ， 并 创建 决策 树 。 


3.1.2 ”划分 数据 集 


上 节 我 们 学 习 了 如 何 度 量 数据 集 的 无 序 程度 , 分 类 算法 除了 需要 测量 信息 粹 ,还 需要 划分 数 
据 集 , 度量 花费 数据 集 的 炉 ， 以 便 判 断 当 前 是 否 正确 地 划分 了 数据 集 。 我 们 将 对 每 个 特征 划分 数 
据 集 的 结果 计算 一 次 信息 炉 , 然后 判断 按照 哪个 特征 划分 数据 集 是 最 好 的 划分 方式 。 想 象 一 个 分 
布 在 二 维 空间 的 数据 散 点 图 ， 需 要 在 数据 之 间 划 条 线 ， 将 它们 分 成 两 部 分 ， 我们 应 该 按照 x 币 还 
是 y 轴 划 线 呢 ? 答 案 就 是 本 节 讲 述 的 内 容 。 

要 划分 数据 集 ， 打 开 文 本 编辑 器 ， 在 trees.py 文 件 中 输入 下 列 的 代码 ， 


程序 清单 3-2 ”按照 给 定 特征 划分 数据 集 


def splitDataSet (dataSet, axis, value): 


retDataSet = [} 
for featVec in dataSet: 创建 新 的 list 对 象 
if featVec[axis]j == value: 
reducedFeatVec = featVec[:axis] 
reducedFeatVec.extend (featVec[axis+1l:]) 局 
retDataSet .append (reducedFeatVec) 


return retDataset 

程序 清单 3-2 的 代码 使 用 了 三 个 输入 参数 ， 待 划分 的 数据 集 、 划 分 数据 集 的 特征 、 特 征 的 返 
回 值 。 需 要 注意 的 是 ，Python 语 言 不 用 考虑 内 存 分 配 问题 。Python 语 言 在 函数 中 传递 的 是 列表 的 
引用 ,在 函数 内 部 对 列表 对 象 的 修改 ， 将 会 影响 该 列表 对 象 的 整个 生存 周期 。 为 了 消除 这 个 不 良 
影响 ,我 们 需要 在 函数 的 开始 声明 一 个 新 列表 对 象 。 因 为 该 函数 代码 在 同一 数据 集 上 被 调用 多 次 ， 
为 了 不 修改 原始 数据 集 , 创建 一 个 新 的 列表 对 象 @@。 数 据 集 这 个 列表 中 的 各 个 元 素 也 是 列表 , 我 
们 要 遍历 数据 集中 的 每 个 元 素 ， 一 旦 发 现 符合 要 求 的 值 ， 则 将 其 添加 到 新 创建 的 列表 中 。 在 if 
语句 中 , 程序 将 符合 特征 的 数据 抽取 出 来 @。 后 面 讲 述 得 更 简单 ,这 里 我 们 可 以 这 样 理解 这 段 代 
码 ， 当 我 们 按照 某 个 特征 划分 数据 集 时 ,就 需要 将 所 有 符合 要 求 的 元 素 抽取 出 来 。 代 码 中 使 用 了 
Python 语言 列表 类 型 自 带 的 sxtend() 和 appenad () 方 法 。 这 两 个 方法 功能 类 做 , 但 是 在 处 理 多 个 
列表 时 ， 这 两 个 方法 的 处 理 结果 是 完全 不 同 的 。 


Q@ 要 了 解 更 多 信息 ， 请 参考 Pan-Ning Tan, Vipin Kumar and Michael Steinbach ,Introduction to Data Mining. Pearson 
Education (Addison-Wesley, 2005), 1S8. 村 
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假定 存在 两 个 列表 ，a 和 b: 


>>> a=[1,2,3] 

>>> b=[4,5,6] 

>>> a.append (b) 

>>> a 

[1, 2, 3, [4, 5, 6€]] 


如 果 执 行 a .appena (b) ， 则 列表 得 到 了 第 四 个 元 素 ， 而 且 第 四 个 元 素 也 是 一 个 列表 。 然 而 
如 果 使 用 extend 方 法 : . 


>>> a={1,2,3] 

>>> a.extend (b) 
>>> a 

[1, 2, 3, 4, 5, 61 


则 得 到 一 个 包含 a 和 b 所 有 元 素 的 列表 。 
我 们 可 以 在 前 面 的 简单 样本 数据 上 测试 函数 splitDataset ()。 首 先 还 是 要 将 程序 清单 3-2 
的 代码 增加 到 trees.py 文 件 中 ， 然 后 在 Python 命令 提示 符 内 输入 下 述 命令 


>>> reload (trees) 

<module 'trees' from 'trees.pyc'> 

>>> myDat, labels=trees.createDataSet () 

>>> myDat 

[[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']] 
>>> trees.splitDataSet (myDat,0,1) 

[[1, 'yes'], {1, 'yes'], [0, 'no']] 

>>> trees.splitDataset (myDat, 0,0) 

[[1, 'no'], [1, 'no']] 


接 下 来 我 们 将 遍历 整个 数据 集 ， 循 环 计算 香农 箭 和 splitDpataset () 函数 ,找到 最 好 的 特征 
划分 方式 。 焙 计算 将 会 告诉 我 们 如 何 划分 数据 集 是 最 好 的 数据 组 织 方式 。 
打开 文本 编辑 器 ， 在 trees.py 文 件 中 输入 下 面 的 程序 代码 。 


程序 清单 3-3 ”选择 最 好 的 数据 集 划分 方式 


def chooseBestFeatureToSplit (dataSet): 
numFeatures = len(dataSet[0]) - 1 
baseEntropy = calcShannonEnt (dataSet) 
bestInfoGain = 0.0; bestFeature = -1 
for i in range (numFeatures): 
featList = [example[i] for example in dataSet] | 几时 用 一 的 分 类 标签 列 表 
uniqueVals = set (featList) 
newEntropy = 0.0 
for value in uniqueVals: 
subDataSet = splitDataset (dataSet, i, value) 计算 每 种 划分 方式 
prob = len(subDataset)/float (len (dataSet)) 的 信息 炳 
newEntropy += prob * calcshannonEnt (subDataSet) 
infoGain = baseEntropy - newEntropy 
if (infoGain > bestInfoGain) : 


bestInfoGain = infoGain | 胃 计算 最 好 的 信息 增益 





bestFeature = i 
return bestFeature 


程序 清单 3-3 给 出 了 函数 chooseBestFeatureToSplit () 的 完整 代码 ， 该 函数 实现 选取 特 
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征 ， 划 分 数据 集 ， 计 算得 出 最 好 的 划分 数据 集 的 特征 。 函 数 chooseBestFeatureToSplit () 使 
用 了 程序 清单 3-1 和 程序 清单 3-2 中 的 函数 。 在 函数 中 调用 的 数据 需要 满足 一 定 的 要 求 : 第 一 个 要 
求 是 ， 数 据 必 须 是 一 种 由 列表 元 素 组 成 的 列表 ， 而 且 所 有 的 列表 元 素 都 要 具有 相同 的 数据 长 度 ; 
第 二 个 要 求 是 ,数据 的 最 后 一 列 或 者 每 个 实例 的 最 后 一 个 元 素 是 当前 实例 的 类 别 标签 。 数 据 集 一 
且 满 足 上 述 要 求 ,我 们 就 可 以 在 函数 的 第 一 行 判定 当前 数据 集 包含 多 少 特 征 属性 。 我 们 无 需 限定 
list 中 的 数据 类 型 ， 它 们 既 可 以 是 数字 也 可 以 是 字符 串 ， 并 不 影响 实际 计算 。 

在 开始 划分 数据 集 之 前 ,程序 清单 3-3 的 第 3 行 代码 计算 了 整个 数据 集 的 原始 香农 炉 , 我 们 保 
存 最 初 的 无 序 度量 值 ， 用 于 与 划分 完 之 后 的 数据 集 计算 的 焙 值 进行 比较 。 第 1 个 for 循 环 遍 历数 
据 集中 的 所 有 特征 。 使 用 列表 推导 (List Comprehension ) 来 创建 新 的 列表 ， 将 数据 集中 所 有 第 i 
个 特征 值 或 者 所 有 可 能 存在 的 值 写 人 这 个 新 list 中 @@。 然 后 使 用 Python 语言 原生 的 集合 ( set ) 数据 
类 型 。 集 合 数据 类 型 与 列表 类 型 相似 ,不 同 之 处 仅 在 于 集合 类 型 中 的 每 个 值 互 不 相同 。 从 列表 中 
创建 集合 是 Python 语言 得 到 列表 中 唯一 元 素 值 的 最 快 方法 。 

遍历 当前 特征 中 的 所 有 唯一 属性 值 ， 对 每 个 特征 划分 一 次 数据 集 @， 然 后 计算 数据 集 的 新 焙 
值 ， 并 对 所 有 唯一 特征 值得 到 的 焙 求 和 。 信 息 增 益 是 焙 的 减少 或 者 是 数据 无 序 度 的 减少 ,大 家 肯 
定 对 于 将 焙 用 于 度量 数据 无 序 度 的 减少 更 容易 理解 。 最 后 ， 比 较 所 有 特征 中 的 信息 增益 ,返回 最 
好 特征 划分 的 索引 值 目 。 

现在 我 们 可 以 测试 上 面 代码 的 实际 输出 结果 ， 首 先 将 程序 清单 3-3 的 内 容 输 入 到 文件 trees.py 
中 ， 然 后 在 Python 命令 提示 符 下 输入 下 列 命令 ， 

a eh 'trees.py'> 

>>> myDat, labels=trees.createDataset () 

>>> treegs.choogeBestFeatureToSplit (myDat) 

0 


>>> myDat 
[[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']] 


代码 运行 结果 告诉 我 们 ， 第 0 个 特征 是 最 好 的 用 于 划分 数据 集 的 特征 。 结 果 是 否 正 确 呢 ? 这 个 
结果 又 有 什么 实际 意义 呢 ? 数据 集中 的 数据 来 源 于 表 3-1, 让 我 们 回头 再 看 一 下 表 1-1 或 者 变量 mypat 
中 的 数据 。 如 果 我 们 按照 第 一 个 特征 属性 划分 数据 ， 也 就 是 说 第 一 个 特征 是 1 的 放 在 一 个 组 ， 第 一 
个 特征 是 0 的 放 在 另 一 个 组 ， 数 据 一 致 性 如 何 ? 按照 上 述 的 方法 划分 数据 集 ， 第 一 个 特征 为 1 的 海洋 
生物 分 组 将 有 两 个 属于 鱼 类 ， 一 个 属于 非 鱼 类 ; 另 一 个 分 组 则 全 部 属于 非 鱼 类 。 如 果 按 照 第 二 个 特 
征 分 组 ， 结 果 又 是 怎么 样 呢 ? 第 一 个 海洋 动物 分 组 将 有 两 个 属于 鱼 类 ， 两 个 属于 非 鱼 类 ; 另 一 个 分 
组 则 只 有 一 个 非 鱼 类 。 如 果 不 相信 目测 结果 , 读者 可 以 使 用 程序 清单 3-1 的 calcshannonEntropy () 
函数 测试 不 同 特征 分 组 的 输出 结果 。 

本 节 我 们 学 习 了 如 何 度量 数据 集 的 信息 焙 , 如 何 有 效 地 划分 数据 集 , 下 一 节 我 们 将 介绍 如 何 
将 这 些 函 数 功 能 放 在 一 起 ， 构 建 决策 树 。 


3.1.3 ”递归 构建 决策 树 
目前 我 们 已 经 学 习 了 从 数据 集 构造 决策 树 算法 所 需要 的 子 功能 模块 ， 其 工作 原理 如 下 : 得 到 
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原始 数据 集 , 然后 基于 最 好 的 属性 值 划 分 数据 集 ， 由 于 特征 值 可 能 多 于 两 个 , 因此 可 能 存在 大 于 
两 个 分 支 的 数据 集 划 分 。 第 一 次 划分 之 后 ,数据 将 被 向 下 传递 到 树 分 支 的 下 一 个 节点 ,在 这 个 节 
点 上 ,我们 可 以 再 次 划分 数据 。 因 此 我 们 可 以 采用 递归 的 原则 处 理 数据 集 。 

递归 结束 的 条 件 是 ; 程序 遍历 完 所 有 划分 数据 集 的 属性 , 或 者 每 个 分 支 下 的 所 有 实例 都 具有 
相同 的 分 类 。 如 果 所 有 实例 具有 相同 的 分 类 ,， 则 得 到 一 个 叶子 节点 或 者 终止 块 。 任 何 到 达 叶 子 节 
点 的 数据 必然 属于 叶子 节点 的 分 类 ， 参 见 图 3-2 所 示 。 


No surfacng Flippers? Eish? 

Yes Yes 

2 Yes Yes Yes 

3 Yes No No 

马 No Yes No 

5 No Yes No 

Flippers? 

1 Yes Yes 
2 Yes Yes 
3 No No 





人 
Yes o 


No 


a 
< 
名 
3 





图 3-2 ”划分 数据 集 时 的 数据 路 径 


第 一 个 结束 条 件 使 得 算法 可 以 终止 , 我 们 甚至 可 以 设置 算法 可 以 划分 的 最 大 分 组 数目 。 后 续 
章节 还 会 介绍 其 他 决策 树 算法 ， 如 C4.5 和 CART， 这 些 算法 在 运行 时 并 不 总 是 在 每 次 划分 分 组 时 
都 会 消耗 特征 。 由 于 特征 数目 并 不 是 在 每 次 划分 数据 分 组 时 都 减少 , 因此 这 些 算法 在 实际 使 用 时 
可 能 引起 一 定 的 问题 。 目 前 我 们 并 不 需要 考虑 这 个 问题 , 只 需要 在 算法 开始 运行 前 计算 列 的 数目 ， 
查看 算法 是 否 使 用 了 所 有 属性 即 可 。 如 果 数 据 集 已 经 处 理 了 所 有 属性 , 但 是 类 标签 依然 不 是 唯一 
的 ， 此 时 我 们 需要 决定 如 何 定 义 该 叶子 节点 ,在 这 种 情况 下 , 我们 通常 会 采用 多 数 表决 的 方法 决 
定 该 叶子 节点 的 分 类 。 

打开 文本 编辑 器 ， 在 增加 下 面 的 函数 之 前 ， 在 trees.py 文 件 顶部 增加 一 行 代码 :import 
operator， 然 后 添加 下 面 的 代码 到 trees.py 文 件 中 : 


def majorityCnt (classList): 

classCount={} 

for vote in classList: 
if vote not in classCount .keys(): classCountlvote] = 0 
classCount [votel += 1 

sortedClassCount = sorted(classCount .iteritems(), 

key=operator.itemgetter{1), reverse=True) 

return sortedClassCount [0] [0] 


0 
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上 面 的 代码 与 第 2 章 classify0 部 分 的 投票 表决 代码 非常 类 似 ,该 函数 使 用 分 类 名 称 的 列表 ， 
然后 创建 键 值 为 classList 中 唯一 值 的 数据 字典 ， 字 典 对 象 存储 了 classList 中 每 个 类 标签 出 
现 的 频率 ， 最 后 利用 operator 操 作 键 值 排序 字典 ， 并 返回 出 现 次 数 最 多 的 分 类 名 称 。 

在 文本 编辑 器 中 打开 trees.py 文 件 ， 添 加 下 面 的 程序 代码 。 


程序 清单 3-4 ”创建 树 的 函数 代码 


def createTree (dataSet, labels): 


classList = [example[-1] for example in dataSet] 类 别 完全 相同 则 

if classLiest,.count (classList[0]) == len{(classList): pa 停止 继续 划分 
return classList [0] - 

if len(dataSet [0]) == 1: 遍历 完 所 有 特征 时 返 
return majorityCnt (classLigst) 回 出 现 次 数 最 多 的 

bestFeat = chooseBestFeatureToSplit (dataSet) 

bestFeatLabel = labels [bestFeat] 

myTree = {bestFeatLabel:{}} 

del (labels [bestFeat]) 得 到 列表 包含 

featVvalues = [example [bestFeat] for example in dataSet] 的 所 有 属性 值 

uniqueVvals = set (featVvalues) 


for value in uniqueVals: 
subLabels = labels[:] 
myTree [bestFeatLabel] [value] = createTree (Sp1itDataSetA\ 
| (dataSet, bestFeat, value),subLabels) 
return myTree 


程序 清单 3-4 的 代码 使 用 两 个 输入 参数 : 数据 集 和 标签 列表 。 标 签 列表 包含 了 数据 集中 所 有 
特征 的 标签 , 算法 本 身 并 不 需要 这 个 变量 , 但 是 为 了 给 出 数据 明确 的 含义 , 我 们 将 它 作 为 一 个 输 
人 参数 提供 。 此 外 ， 前 面 提 到 的 对 数据 集 的 要 求 这 里 依然 需要 满足 。 上 述 代码 首先 创建 了 名 为 
classList 的 列表 变量 , 其 中 包含 了 数据 集 的 所 有 类 标签 。 递 归 函 数 的 第 一 个 停止 条 件 是 所 有 的 
类 标 移 完 全 相同 ， 刘 直接 返回 该 类 标签 全 。 递 归 函 数 的 第 二 个 停止 条 件 是 使 用 完了 所 有 特征 , 仍 
然 不 能 将 数据 集 划分 成 仅 包含 唯一 类 别 的 分 组 @。 由 于 第 二 个 条 件 无 法 简单 地 返回 唯一 的 类 标 
得 ， 这 里 使 用 程序 清单 3-3 的 函数 挑选 出 现 次 数 最 多 的 类 别 作为 返回 值 。 

下 一 步 程序 开始 创建 树 ， 这 里 使 用 Python 语言 的 字典 类 型 存储 树 的 信息 ， 当 然 也 可 以 声明 特 
丈 的 数据 类 型 存储 树 ， 但 是 这 里 完全 没有 必要 。 字 典 变量 myTree 存 储 了 树 的 所 有 信息 ， 这 对 于 
其 后 绘制 树 形 图 非常 重要 。 当 前 数据 集 选取 的 最 好 特征 存储 在 变量 bestFeat 中 ， 得 到 列表 包含 
的 所 有 属性 值 全 。 这 部 分 代码 与 程序 清单 3-3 中 的 部 分 代码 类 似 ， 这 里 就 不 再 进一步 解释 了 。 

最 后 代码 遍历 当前 选择 特征 包含 的 所 有 属性 值 ， 在 每 个 数据 集 划分 上 递归 调用 函数 

.createTree() ， 得 到 的 返回 值 将 被 插入 到 字典 变量 myrree 中 ， 因 此 函数 终止 执行 时 ， 字 典 中 将 
会 赔 套 很 多 代表 叶子 节点 信息 的 字典 数据 。 在 解释 这 个 嵌 套 数据 之 前 , 我 们 先 看 一 下 循环 的 第 一 行 
subLabels = labels[:]， 这 行 代码 复制 了 类 标签 ， 并 将 其 存储 在 新 列表 变量 subLabels 中 。 之 
所 以 这 样 做 ,是 因为 在 Python 语言 中 函数 参数 是 列表 类 型 时 ， 参 数 是 按照 引用 方式 传递 的 。 为 了 保 
证 每 次 调用 函数 createTree () 时 不 改变 原始 列表 的 内 容 ， 使 用 新 变量 subLabels 代 替 原 始 列表 。 

现在 我 们 可 以 测试 上 面 代 码 的 实际 输出 结果 ， 首 先 将 程序 清单 3-4 的 内 容 输入 到 文件 trees.py 
中 ， 然 后 在 Python 命令 提示 符 下 输入 下 列 命令 : | 
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>>> reload (trees) 

<module 'trees' from 'trees.pyc'> 

>>> myDat, labels=trees.createDataset () 

>>> myTree = trees.createTree (myDat, labels) 

>>> myTree 

{'no surfacing': {0: :no:，1: {'flippers': {0: 'no', 1: 'yes'}}}} 


变量 myTree 包 含 了 很 多 代表 树 结构 信息 的 嵌 套 字典 ， 从 左边 开始 ， 第 一 个 关键 字 no 
surfacing 是 第 一 个 划分 数据 集 的 特征 名 称 , 该 关键 字 的 值 也 是 另 一 个 数据 字典 。 第 二 个 关键 字 
是 no surfacing 特 征 划 分 的 数据 集 ， 这 些 关键 字 的 值 是 no surfacing 节 点 的 子 节点 。 这 些 值 
可 能 是 类 标签 , 也 可 能 是 男 一 个 数据 字典 。 如 果 值 是 类 标签 ， 则 该 子 节点 是 叶子 节点 ; 如 果 值 是 
另 一 个 数据 字典 , 则 子 节点 是 一 个 判断 节点 ,这 种 格式 结构 不 断 重 复 就 构成 了 整 棵 树 。 本 节 的 例 
子 中 ， 这 棵 树 包含 了 3 个 叶子 节点 以 及 2 个 判断 节点 。 

本 节 讲 述 了 如 何 正确 地 构造 树 ,， 下 一 节 将 介绍 如 何 绘制 图 形 , 方便 我 们 正确 理解 数据 信息 的 
内 在 含义 。 


3.2 在 Python 中 使 用 Matplotlib 注解 绘制 树 形 图 


上 节 我 们 已 经 学 习 了 如 何 从 数据 集中 创建 树 , 然而 字典 的 表示 形式 非常 不 易于 理解 , 而 且 直 
接 绘制 图 形 也 比较 困难 。 本 节 我 们 将 使 用 Matplotlib 库 创建 树 形 图 。 决 策 树 的 主要 优点 就 是 直观 
易于 理解 ， 如 果 不 能 将 其 直观 地 显示 出 来 ， 就 无 法 发 挥 其 优势 。 虽 然 前 面 章节 我 们 使 用 的 图 形 库 
已 经 非常 强大 ,但 是 Python 并 没有 提供 绘制 树 的 工具 ， 因 此 我 们 必须 自己 绘制 树 形 图 。 本 节 我 们 
将 学 习 如 何 编写 代码 绘制 如 图 3-3 所 示 的 决策 树 。 





Co) yes 
图 3-3 ”决策 树 的 范例 
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3.2 在 Python 中 使 用 Matplotlib 注解 绘制 树 形 图 43 





3.2.1 ”Matplotlib 注解 


Matplotlib 提 供 了 一 个 注解 工具 annotations， 非 常 有 用 ， 它 可 以 在 数据 图 形 上 添加 文本 注 
释 。 注 解 通常 用 于 解释 数据 的 内 容 。 由 于 数据 上 面 直接 存在 文本 描述 非常 丑陋 ， 因 此 工具 内 散文 
持 带 箭头 的 划 线 工具 ， 使 得 我 们 可 以 在 其 他 恰当 的 地 方 指向 数据 位 置 ， 并 在 此 处 添加 描述 信息 ， 
解释 数据 内 容 。 如 图 3-4 所 示 , 在 坐标 (0.2, 0.1) 的 位 置 有 一 个 点 ,我们 将 对 该 点 的 描述 信息 放 在 (0.35， 3 | 
0.3) 的 位 置 ， 并 用 箭头 指向 数据 点 (0.2, 0.1)。 | 


这 是 我 的 文本 
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图 3-4 ”Matplotlib 注 解 示 例 


人 

为 什么 使 用 单词 “给 制 "(plot)? 为 什么 在 讨论 如何 在 因 形 上 显示 部 据 的 时 候 不 使 用 间 记 

“图 形 化 ”( graph ) ? 这 里 存在 一 些 语 言 上 的 差别 ， 英 语 单词 graph 在 某 些 学 科 中 具有 特定 的 含 

义 ， 如 在 应 用 数学 中 ， 一 系列 由 边 连 接 在 一 起 的 对 象 或 者 节点 称 为 图 。 节 点 的 任意 联系 都 可 以 、 

通过 边 来 连接 。 在 计算 机 科学 中 ， 图 是 一 种 数据 结构 ， 用 于 表示 数学 上 的 概念 。 好 在 汉语 并 不 
存在 这 些 混淆 的 概念 ， 这 里 就 统一 使 用 绘制 树 形 图 。 





本 书 将 使 用 Matplotlib 的 注解 功能 绘制 树 形 图 ， 它 可 以 对 文字 着 色 并 提供 多 种 形状 以 供 选 择 ， 
而 且 我 们 还 可 以 反 转 箭头 ， 将 它 指 向 文本 框 而 不 是 数据 点 。 打 开 文 本 编辑 器 ， 创 建 名 为 
treePlotterpy 的 新 文件 ， 然 后 输入 下 面 的 程序 代码 。 


程序 清单 3-5 使 用 文本 注解 绘制 树 节 点 


import matplotlib.pyplot as plt 


decisionNode = dict (boxstyle="sawtooth", fc="0.8") 有 定义 文本 框 和 箭头 格式 


leafNode = dict (boxstyle='"'round4", fc="0.8") 
arrow_args = dict (arrowstyle="<-") 


def plotNode (nodeTxt, centerpt, parentPpt, nodeType): 上 有, 绘制 带 箭头 的 注解 
CreatePlot .ax1l.annotate (nodeTxt, xy= sparent Pt, 
xycoords='axes fraction' 
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xytext=centerpt, textcoords='axes fraction', 
va="center", ha="center', bbox=nodeType, arrowprops=arrow args) 


def createPlot(): 
fig = plit,.figure(1, facecolor='white') 
fig.clf() 
createplot.axli = plt.subplot (111, frameon=False) 
plotNode('a decision node', {0.5, 0.1), (0.1, 0.5), decisionNode) 
plotNode('a leaf node', (0.8, 0.1), (0.3, 0.8), leafNode) 
plt. show () 


这 是 第 一 个 版 本 的 createPlot () 函数 ， 与 例子 文件 中 的 createPlot () 函数 有 些 不 同 ， 随 
着 内 容 的 深入 ,我们 将 逐步 添加 缺失 的 代码 。 代 码 定 义 了 树 节点 格式 的 常量 @@。 然 后 定义 
”plotNode() 函数 执行 了 实际 的 绘图 功能 ， 该 函数 需要 一 个 绘图 区 ， 该 区 域 由 全 局 变量 
createPlot.ax1 定 义 。Python 语 言 中 所 有 的 变量 默认 都 是 全 局 有 效 的 ， 只 要 我 们 清楚 知道 当前 
代码 的 主要 功能 , 并 不 会 引信 太 大 的 麻烦 。 最 后 定义 createPlot () 函数 , 它 是 这 段 代 码 的 核心 。 
createPlot () 函数 首先 创建 了 一 个 新 图 形 并 清空 绘图 区 ,然后 在 绘图 区 上 绘制 两 个 代表 不 同类 
型 的 树 节点 ， 后 面 我 们 将 用 这 两 个 节点 绘制 树 形 图 。 

为 了 测试 上 面 代 码 的 实际 输出 结果 ， 打 开 Python 命 令 提示 符 ， 导 人 treePlotter 模 块 : 


>>> import treePlotter 
>>> treePlotter.createPlot () 


程序 的 输出 结果 如 图 3-5 所 示 , 我们 也 可 以 改变 函数 plotNode ()@， 观察 图 中 x、y 位 置 如 何 
变化 。 
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图 3-5 ”函数 plotNode 的 例子 
现在 我 们 已 经 掌握 了 如 何 绘 制 树 节点 ， 下 面 将 学 习 如 何 绘制 整 棵 树 。 
3.2.2 ”构造 注解 树 


绘制 一 棵 完整 的 树 需要 一 些 技巧 。 我 们 虽然 有 x*、) 坐 标 ， 但 是 如 何 放置 所 有 的 树 节点 却 是 个 问 
题 。 我 们 必须 知道 有 多 少 个 叶 节 点 ， 以 便 可 以 正确 确定 x 轴 的 长 度 ; 我 们 还 需要 知道 树 有 多 少 层 ， 
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以 便 可 以 正确 确定 y 轴 的 高 度 。 这 里 我 们 定义 两 个 新 函数 getNumLeafs () 和 getTreeDepth()，, 来 
获取 叶 节 点 的 数目 和 树 的 层 数 ， 参 见 程序 清单 3-6， 并 将 这 两 个 函数 添加 到 文件 treePlotterpy 中 。 


程序 清单 3-6 ”获取 叶 节 点 的 数目 和 树 的 层 数 


def getNumLeafs (myTree): 
numLeafs = 0 
firstSstr = myTree.keys() [0] 
secondDict = myTree [firststr] 
for key in secondDict .keys(): 
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else: numLeafs +=1 全 和 汪 和 


return numLeafs 


def getTreeDepth (myTree) : 
maxDepth = 0 
firstStr = myTree.keys{() [0] 
secondDict = myTree [firststr] 
for key in secondDict ,keys() : 


if 上 type (secondDict [key]). name =='dict'; 
thisDepth = 1 + getTreeDepth (secondDict [key]) 
else: thisDepth = 1 


if thisDepth > maxDepth: maxDepth = thisDepth 
return maxDepth 


上 述 程序 中 的 两 个 函数 具有 相同 的 结构 , 后面 我 们 也 将 使 用 到 这 两 个 函数 。 这 里 使 用 的 数据 
结构 说 明了 如 何在 Python 字典 类 型 中 存储 树 信 息 。 第 一 个 关键 字 是 第 一 次 划分 数据 集 的 类 别 标 
签 ， 附 带 的 数值 表示 子 节 点 的 取 值 。 从 第 一 个 关键 字 出 发 ， 我 们 可 以 遍历 整 棵 树 的 所 有 子 节点 。 
使 用 Python 提供 的 type () 函数 可 以 判断 子 节点 是 否 为 字典 类 型 @。 如 果子 节点 是 字典 类 型 ， 则 
该 节点 也 是 一 个 判断 节点 ,需要 递归 调用 getNumLeafs () 函数 。getNumLeafs () 函数 遍历 整 棵 
树 ， 累 计 叶 子 节点 的 个 数 ， 并 返回 该 数值 。 第 2 个 函数 getTreeDeptph () 计算 遍历 过 程 中 遇 到 判 
断 节 点 的 个 数 。 该 函数 的 终止 条 件 是 叶子 节点 , 一 旦 到 达 叶 子 节点 ， 则 从 递归 调用 中 返回 ， 并 将 
计算 树 深度 的 变量 加 一 。 为 了 节省 大 家 的 时 间 ， 函 数 retrieveTree 输 出 预先 存储 的 树 信息 ， 导 
免 了 每 次 测试 代码 时 都 要 从 数据 中 创建 树 的 麻烦 。 

添加 下 面 的 代码 到 文件 keePlotterpy 中 


def retrieveTree (1): 
listOfTrees =[{'no surfacing': {0: 'no', 1: {'flippers': \ 
{0: 'no', 1: 'yes'}}}} 
{'no surfacing': {0: 'no', 1: {'flippers': \ 
{0: {'head': {0; 'no', 1: 'yes'}}, 1: 'no'})}}} 
] 
return listOfTrees [并 


保存 文件 treePlotter.py， 在 Python 命 令 提 示 符 下 输入 下 列 命令 : 
>>> reload (treePlotter) 
<module 'treePlotter' from 'treePplotter.py'> 
>>> treePlotter,.retrieveTree (1) 











ww aibbt. com 






























































46 


第 3 章 决策 树 





{'no surfacing': {0: 'no', 1: {'flippers': {0: {'head': {0: 'no', 1: 


>>> 
>>> 
3 
>>> 
2 


‘yes'}}, 1: 'no'}}}} 
myTree = treePlotter.retrieveTree (0) 
treePlotter.getNumLeafs (myTree) 


treePlotter.getTreeDepth (myTree) 


函数 retrieveTree() 主 要 用 于 测试 , 返回 预定 义 的 树 结构 。 上 述 命 令 中 调用 getNumLeafs () 
函数 返回 值 为 3, 等 于 树 0 的 叶子 节点 数 ; 调用 getTreeDepths () 函数 也 能 够 正确 返回 树 的 层 数 。 

现在 我 们 可 以 将 前 面 学 到 的 方法 组 合 在 一 起 , 绘制 一 棵 完整 的 树 。 最 终 的 结果 如 图 3-6 所 示 ， 
但 是 没有 x 和 y 轴 标签 。 
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图 3-6 简单 数据 集 绘制 的 树 形 图 


打开 文本 编辑 器 ， 将 程序 清单 3-7 的 内 容 添 加 到 treePlotter.py 文 件 中 。 注 意 ， 前 文 已 经 在 文件 
中 定义 了 函数 createPlot () ， 此 处 我 们 需要 更 新 这 部 分 代码 。 


程序 清单 3-7 plotTree 函 数 


def 


def 


plotMidText (cntrPpt, parentpt, txtSstring): 
xMidG = (parentPt [0] -cntrPt [0])/2.0 + cntrpt{0] 
yMid = (parentPt [1]-cntrPt [1])/2.0 + cntrPt{1] 
createPlot .axI.text (xMid, yMid, txtString) 


在 父子 节点 间 填 充 文本 信息 


plotTree (myTree, parentpt, nodeTxt): 

numLeafs = getNumLeafs (myTree) 计算 宽 与 高 

depth = getTreeDepth (myTree) | 月 

fizrstStr = myTree.keys() [0] 

cntrPpt = (plotTree.xOff + (1.0 + float (numLeafs))/2.0/plotTree.totalWw,\ 
plotTree .yOff) 
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plotMidText (CntrPt，PparentPt，nodeTxt) 
plotNode (firstStr, cntrpt, parentPt, decisionNode) “8 标记 子 节 点 属性 值 
secondDict =.myTree [firstSstr] 
plotTree.yOff = plotTree.yOff - 1.0/plotTree.totalD | 四 减少 y 偏 移 
for key in secondDict .keys(): 

if type (secondDict[key]). name =='dict'!: 

plotTree (secondDict [key] ,cntrpt, str (key)) 
else: 


plotTree.xOff = plotTree.xOff + 1.0/plotTree.totalW 
plotNode (secondDict [key]}, (plotTree.xOff, plotTree.yoff), 
cntrpt, leafNode) 
plotMidText ( (plotTree.xOff, plotTree.yOff), cntrpt, str (key)) 
plotTree.yOff = plotTree.yOff + 1.0/plotTree.totalD 


def createPlot (inTree) : 
fig = plt.figure(1, facecolor='white') 
fig,clf() 
axprops = dict (xticks=[], yticks=[]) 
createplot .axl = plt.subplot (1il, frameon=False, **axprops) 
plotTree.totalW = float (getNumLeafs (inTree)) 
plotTree.totalD = float (getTreeDepth (inTree)) 


plotTree.xOff = -0,5/plotTree,.totalWw; plotTree.yOff = 1.0; 
plotTree (inTree, {0.5,1.0), '') 
plt .shovw() 


函数 createPlot () 是 我 们 使 用 的 主 函数 , 它 调用 了 plotTree()， 函数 plotmree 又 依次 调 
用 了 前 面 介 绍 的 函数 和 plotMiadrext () 。 绘 制 树 形 图 的 很 多 工作 都 是 在 函数 plotTree () 中 完成 
的 ， 函 数 plotrree () 首先 计 算 树 的 宽 和 高 个 。 全 局 变量 plotTree. totalw 存 储 树 的 宽度 ， 全 
局 变量 plotTree .totalD 存 储 树 的 深度 ， 我 们 使 用 这 两 个 变量 计算 树 节 点 的 摆 放 位 置 ， 这 样 可 
以 将 树 绘 制 在 水 平方 向 和 垂直 方向 的 中 心 位 置 。 与 程序 清单 3-6 中 的 函数 getNumLeafs () 和 
getmreeDepth () 类 似 ， 函 数 plotmree() 也 是 个 递归 函数 。 树 的 宽度 用 于 计算 放置 判断 节点 的 
位 置 ， 主 要 的 计算 原则 是 将 它 放 在 所 有 叶子 节点 的 中 间 ， 而 不 仅仅 是 它 子 节点 的 中 间 。 同 时 我 们 
使 用 两 个 全 局 变量 plotTree.xoff 和 plotTree. yoff 追 踪 已 经 绘制 的 节 点 位 置 ， 以 及 放置 下 一 
个 节点 的 恰当 位 置 。 另 一 个 需要 说 明 的 问题 是 ， 绘 制图 形 的 x 轴 有 效 范 围 是 0.0 到 1.0，y 轴 有 效 范 
围 也 是 0.0 ~ 1.0。 为 了 方便 起 见 ， 图 3-6 给 出 具体 坐标 值 ， 实 际 输出 的 图 形 中 并 没有 x、y 坐 标 。 通 
过 计算 树 包 含 的 所 有 叶子 节点 数 ， 划 分 图 形 的 宽度 ， 从 而 计算 得 到 当前 节点 的 中 心 位 置 , 也 就 是 
说 ， 我 们 按照 叶子 节点 的 数目 将 xz 朝 划 分 为 若干 部 分 。 按 照 图 形 比 例 绘制 树 形 图 的 最 大 好 处 是 无 
需 关 心 实际 输出 图 形 的 大 小 , 一旦 图 形 大 小 发 生 了 变化 ， 函 数 会 自动 按照 图 形 大 小 重新 绘制 。 如 
果 以 像素 为 单位 绘制 图 形 ， 则 缩放 图 形 就 不 是 一 件 简单 的 工作 。 

接着 ， 绘 出 子 节点 具有 的 特征 值 ， 或 者 沿 此 分 支 向 下 的 数据 实例 必须 具有 的 特征 值 合 。 使 用 
函数 plotMiaText () 计算 父 节点 和 子 节点 的 中 间 位 置 ， 并 在 此 处 添加 简单 的 文本 标签 信息 今 。 

然后 , 按 比例 减少 全 局 变量 plotTree .yoff, 并 标注 此 处 将 要 绘制 子 节点 四 ， 这些 节点 即 可 以 
是 叶子 节点 也 可 以 是 判断 节点 ， 此 处 需要 只 保存 绘制 图 形 的 轨迹 。 因 为 我 们 是 自 顶 向 下 绘制 图 形 ， 
因此 需要 依次 递减 y 坐 标 值 ， 而 不 是 递增 y 坐 标 值 。 然 后 程序 采用 水 数 getNumLeafs() 和 
getTreeDepth() 以 相同 的 方式 递归 遍历 整 棵 树 ， 如 果 节 点 是 叶子 节点 则 在 图 形 上 画 出 叶子 节点 ， 
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如 果 不 是 叶子 节点 则 递归 调用 plotTree() 函数 。 在 绘制 了 所 有 子 节点 之 后 ,增加 全 局 变量 Y 的 偏 移 。 

程序 清单 3-7 的 最 后 一 个 函数 是 createPlot () ， 它 创建 绘图 区 ， 计 算 树 形 图 的 全 局 尺寸 ， 
并 调用 递归 函数 plotTree ()。 

现在 我 们 可 以 验证 一 下 实际 的 输出 效果 。 添 加 上 述 代码 到 文件 teePlotterpy 之 后 ， 在 Python 
命令 提示 符 下 输入 下 列 命令 : 

>>> reload (treePlotter) 

<module 'treePlotter: from 'treepliotter.pyc'> 


>>> myTree=treePlotter.retrieveTree (0) 
>>> treeplotter.createPliot (myTree) 


输出 效果 如 图 3-6 所 示 ， 但 是 没有 坐标 轴 标 签 。 接 着 按照 如 下 命令 变更 字典 ， 重 新 绘制 树 形 图 : 
>>> myTree [:no surfacing'] [3]='maybe' 
>>> myTree 
{'no surfacing ': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}, 3: 
'maybe' }} 
>>> treeplotter.createplot (myTree) 


输出 效果 如 图 3-7 所 示 ， 有 点 像 一 个 无 头 的 简 笔画 。 你 也 可 以 在 树 字 典 中 随意 添加 一 些 数据 ， 并 
重新 绘制 树 形 图 观察 输出 结果 的 变化 。 

到 目前 为 止 , 我 们 已 经 学 习 了 如 何 构 造 决 策 树 以 及 绘制 树 形 图 的 方法 ,下 节 我 们 将 实际 使 用 
这 些 方 法 ， 并 从 数据 和 算法 中 得 到 某 些 新 知识 。 






ED 


图 3-7 ”超过 两 个 分 支 的 树 形 图 


3.3 测试 和 存储 分 类 器 
本 书 第 一 部 分 主要 讲解 机 器 学 习 的 分 类 算法 , 然而 到 目前 为 止 , 本 章 学 习 的 主要 内 容 是 如 何 
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从 原始 数据 集中 创建 决策 树 ， 并 使 用 Python 函数 库 绘制 树 形 图 ， 方 便 我 们 了 解数 据 的 真实 含义 ， 
下 面 我 们 将 把 重点 转移 到 如 何 利 用 决策 树 执行 数据 分 类 上 。 

本 节 我 们 将 使 用 决策 树 构建 分 类 器 , 以 及 实际 应 用 中 如 何 存储 分 类 器 。 下 一 节 我 们 将 在 真实 
数据 上 使 用 决策 树 分 类 算法 ， 验 证 它 是 否 可 以 正确 预测 出 患者 应 该 使 用 的 隐形 眼镜 类 型 。 


3.3.1 测试 算法 ， 使 用 决策 树 执行 分 类 


依靠 训练 数据 构造 了 决策 树 之 后 ， 我 们 可 以 将 它 用 于 实际 数据 的 分 类 。 在 执行 数据 分 类 时 ， 
需要 决策 树 以 及 用 于 构造 树 的 标签 向 量 。 然 后 , 程序 比较 测试 数据 与 决策 树 上 的 数值 ， 递 归 执 行 
该 过 程 直到 进入 叶子 节点 ; 最 后 将 测试 数据 定义 为 叶子 节点 所 属 的 类 型 。 

为 了 验证 算法 的 实际 效果 , 打开 文本 编辑 器 , 将 程序 清单 3-8 包 含 的 代码 添加 到 文件 trees.py 中 。 


程序 清单 3-8 ”使 用 决策 树 的 分 类 函数 


def classify(inputTree, featLabels,testVec) : 
firstSstr = inpuctTree,keys() [0] 
secondDict = inputTree [firststr] 将 标签 字符 串 转换 为 索引 
featIndex = featLabels.index (firstStr) : 
for key in secondDict .keys{(): 
if testVec [featInqex] == key: 
if type{(secondDict[key]). name =='dict': 
classLabel = classify(secondDict {key] ,featLabels, testVec): 

else: classLabel = secondDict [key] 

return classLabel 


程序 清单 3-8 定 义 的 函数 也 是 一 个 递归 函数 ， 在 存储 带 有 特征 的 数据 会 面临 一 个 问题 : 程序 
无 法 确定 特征 在 数据 集中 的 位 置 ， 例 如 前 面 例子 的 第 一 个 用 于 划分 数据 集 的 特征 是 no 
surfacing 属 性 ,但 是 在 实际 数据 集中 该 属性 存储 在 哪个 位 置 ? 是 第 一 个 属性 还 是 第 二 个 属性 ? 
特征 标签 列表 将 帮助 程序 处 理 这 个 问题 。 使 用 index 方 法 查找 当前 列表 中 第 一 个 匹配 firststr 
变量 的 元 素 人 @。 然 后 代码 递归 遍历 整 棵 树 ， 比 较 testvec 变 量 中 的 值 与 树 节点 的 值 ， 如 果 到 达 叶 
子 节点 ， 则 返回 当前 节点 的 分 类 标签 。 

将 程序 清单 3-8 包 含 的 代码 添加 到 文件 trees.py 之 后 ， 打 开 Python 命令 提示 符 ， 输 入 下 列 命令 : 


>>> myDat, labels=trees.createDataset () 

>>> labels 

['no surfacing', 'flippers'] 

>>> myTree=treePlotter.retrieveTree (0) 

>>> myTree 

{'no surfacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}} 
>>> trees.classify (myTree, labels, {1,0])} 

ino! 

>>> trees.classify (myTree, labels, [1,1]) 

1yes! 


与 图 3-6 比 较 上 述 输出 结果 。 第 一 节点 名 为 no surfacing， 它 有 两 个 子 节点 : 一 个 是 名 字 为 0 的 
叶子 节点 ， 类 标签 为 no; 另 一 个 是 名 为 flippers 的 判断 节点 ， 此 处 进入 递归 调用 ，ftippers 节 点 有 两 
个 子 节点 。 以 前 绘制 的 树 形 图 和 此 处 代表 树 的 数据 结构 完全 相同 。 
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现在 我 们 已 经 创建 了 使 用 决策 树 的 分 类 器 ， 但 是 每 次 使 用 分 类 器 时 ， 必 须 重新 构造 决策 树 ， 
下 一 节 我 们 将 介绍 如 何在 硬盘 上 存储 决策 树 分 类 器。 


3.3.2 ”使 用 算法 ， 决 策 树 的 存储 


构造 决策 树 是 很 耗 时 的 任务 ， 即 使 处 理 很 小 的 数据 集 ， 如 前 面 的 样本 数据 ， 也 要 花费 几 秒 的 
时 间 ， 如 果 数 据 集 很 大 ， 将 会 耗费 很 多 计算 时 间 。 然 而 用 创建 好 的 决策 树 解 决 分 类 问题 ， 则 可 以 
很 快 完 成 。 因 此 ， 为 了 节省 计算 时 间 ， 最 好 能 够 在 每 次 执行 分 类 时 调用 已 经 构造 好 的 决策 树 。 为 
了 解决 这 个 问题 ， 需 要 使 用 Python 模块 pickle 序 列 化 对 象 , 参见 程序 清单 3-9。 序 列 化 对 象 可 以 在 磁 
盘 上 保存 对 象 , 并 在 需要 的 时 候 读 取出 来 。 任 何 对 象 都 可 以 执行 序列 化 操作 , 字 由 对 象 也 不 例外 。 


程序 清单 3-9 ”使 用 pickle 模 块 存 储 决策 树 


def storeTree (inputTree,filename): 
import pickle 
fw = open(filename,'w') 
pickle.dump (inputTree, fw) 
fw.close() 


def grabTree (filename): 
import pickle 
fr = open (filename) 
return pickle.load (fr) 


在 Python 命 令 提 示 符 中 输入 下 列 命令 验证 上 述 代 码 的 效果 : 

>>> trees.storeTree (myTree, 'classifierStorage.txt') 

>>> trees.grabTree{('classifierStorage .txt') 

{'no surfacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'})}}} 


通过 上 面 的 代码 ,我 们 可 以 将 分 类 器 存储 在 硬盘 上 , 而 不 用 每 次 对 数据 分 类 时 重新 学 习 一 遍 ， 
这 也 是 决策 树 的 优点 之 一 ， 像 第 2 章 介 绍 了 -近邻 算法 就 无 法 持久 化 分 类 器 。 我 们 可 以 预先 提炼 
并 存储 数据 集中 包含 的 知识 信息 ,在 需要 对 事物 进行 分 类 时 再 使 用 这 些 知 识 。 下 节 我 们 将 使 用 这 
些 工具 处 理 隐形 眼镜 数据 集 。 


3.4 示例 : 使 用 决策 树 预测 隐形 眼镜 类 型 


本 节 我 们 将 通过 一 个 例子 讲解 决策 树 如 何 预测 患者 需要 佩戴 的 隐形 眼镜 类 型 。 使 用 小 数据 
集 , 我 们 就 可 以 利用 决策 树 学 到 很 多 知识 : 眼科 医生 是 如 何 判断 患者 需要 佩戴 的 镜片 类 型 ; 一 旦 
理解 了 决策 树 的 工作 原理 ， 我 们 甚至 也 可 以 帮助 人 们 判断 需要 佩戴 的 镜片 类 型 。 


加 ”，， 。 示例; 使 用 决策 树 预测 隐形 眼镜 类 型 
(1) 收集 数据 : 提供 的 文本 文件 。 
(2) 准备 数据 ;解析 tab 键 分 隔 的 数据 行 。 Qe 
(3) 分 析 数 据 : 快速 检查 数据 ， 确 保 正确 地 解析 数据 内 容 ， 使 用 createPlot () 函数 绘制 
最 终 的 树 形 图 。 
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(4) 训练 算法 : 使 用 3.1 节 的 createTree() 函数 。 
(5) 测试 算法 ， 编写 测试 函数 验证 决策 树 可 以 正确 分 类 给 定 的 数据 实例 。 
(6) 使 用 算法 : 存储 树 的 数据 结构 ， 以 便 下 次 使 用 时 无 需 重新 构造 树 。 


隐形 眼镜 数据 集 ?" 是 非常 著名 的 数据 集 ， 它 包含 很 多 患者 眼 部 状况 的 观察 条 件 以 及 医生 推荐 的 
隐形 眼镜 类 型 。 隐 形 眼 镜 类 型 包括 硬 材 质 、 软 材质 以 及 不 适合 佩戴 隐形 眼镜 。 数 据 来 源 于 UCI 数 据 
库 , 为 了 更 容易 显示 数据 , 本 书 对 数据 做 了 简单 的 更 改 , 数据 存储 在 源 代码 下 载 路 径 的 文本 文件 中 。 

可 以 在 Python 命 令 提 示 符 中 输入 下 列 命令 加 载 数据 : 

>>> fr=open('lenses.txt') 

>>> lenses=[inst.strip() .split('\t') for inst in fr.readlines()] 

>>> lensesLabels=['age', 'prescript', 'astigmatic', 'tearRate'] 


>>> lensesTree = treegs.createTree (lenses, lensesLabels) 
>>> lensesTree 


{'tearRate': {'reduced': 'no lenses', 'normal': {'astigmatic': {'yes': 
{'prescript': {'hyper': {'age': {'pre': 'no lenseg', 'presbyopic': 
‘no lenses', ‘young':'hard'}}, 'myope': 'hard'}}, 'no': {'age': {'pre': 


1'soft', 'presbyopic': {'prescript': {'hyper': 'soft', 'myope': 
Ino lenges'}}, 'young': 'soft'}}}}}} 
>>> treePlotter .czreatePlot (lensesTree) 


采用 文本 方式 很 难 分 辨 出 决策 树 的 模样 ， 最 后 一 行 命令 调用 createPlot () 函数 绘制 了 如 图 
3-8 所 示 的 树 形 图 。 沿 着 决策 树 的 不 同 分 支 ， 我 们 可 以 得 到 不 同 患者 需要 佩戴 的 隐形 眼镜 类 型 。 从 
图 3-8 上 我 们 也 可 以 发 现 ， 医 生 最 多 需要 问 四 个 问题 就 能 确定 患者 需要 佩戴 哪 种 类 型 的 隐形 眼镜 。 





图 3-8 由 ID3 算 法 产生 的 决策 树 


人 @ The dataset is a modified version of the Lenses dataset retrieved from the UCI Machine Learning Repository November 3， 
2010 [http:/archive.ics.uci.edu/ml/machine-learmning-databases/lenses/]. The source of the data is Jadzia Cendrowska and 
was originally published in “PRISM: An algorithm for inducing modular rules,” in International Journal of Man-Machine 
Studies (1987), 27, 349—70.) . 
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图 3-8 所 示 的 决策 树 非常 好 地 匹配 了 实验 数据 ， 然 而 这 些 匹 配 选项 可 能 太 多 了 。 我 们 将 这 种 
问题 称 之 为 过 度 匹配 (overfitting )。 为 了 减少 过 度 匹配 问题 ， 我 们 可 以 裁剪 决策 树 ， 去 掉 一 些 不 
| 必要 的 叶子 节点 。 如 果 叶 子 节点 只 能 增加 少许 信息 ， 则 可 以 删除 该 节点 ,将 它 并 人 到 其 他 叶子 节 
点 中 。 第 9 章 将 进一步 讨论 这 个 问题 。 

。 第 9 章 将 学 习 另 一 个 决策 树 构造 算法 CART， 本 章 使 用 的 算法 称 为 ID3 ， 它 是 一 个 好 的 算法 但 
并 不 完美 。ID3 算 法 无 法 直接 处 理 数值 型 数据 ， 尽 管 我 们 可 以 通过 量化 的 方法 将 数值 型 数据 转化 
为 标 称 型 数值 ， 但 是 如 果 存 在 太 多 的 特征 划分 ，ID3 算 法 仍然 会 面临 其 他 问题 。 


3.5 ”本 章 小 结 


决策 树 分 类 器 就 像 带 有 终止 块 的 流程 图 , 终止 块 表示 分 类 结果 。 开 始 处 理 数据 集 时 , 我 们 首 
先 需 要 测量 集合 中 数据 的 不 一 致 性 ,也 就 是 粹 ,然后 寻找 最 优 方案 划分 数据 集 ， 直 到 数据 集中 的 
所 有 数据 属于 同一 分 类 。ID3 算 法 可 以 用 于 划分 标 称 型 数据 集 。 构 建 决 策 树 时 ， 我 们 通常 采用 递 
归 的 方法 将 数据 集 转化 为 决策 树 。 一 般 我 们 并 不 构造 新 的 数据 结构 ， 而 是 使 用 Python 语言 内 据 的 
数据 结构 字典 存储 树 节 点 信息 。 

使 用 Matplotlib 的 注解 功能 , 我 们 可 以 将 存储 的 树 结构 转化 为 容易 理解 的 图 形 。Python 语 言 
pickle 模 块 可 用 于 存储 决策 树 的 结构 。 隐 形 眼 镜 的 例子 表明 决策 树 可 能 会 产生 过 多 的 数据 集 划分 ， 
从 而 产生 过 度 匹配 数据 集 的 问题 。 我 们 可 以 通过 裁剪 决策 树 ， 合 并 相 邻 的 无 法 产生 大 量 信息 增益 

”的 叶 节 点 ， 消 除 过 度 匹配 问题 。 

还 有 其 他 的 决策 树 的 构造 算法 ,最 流行 的 是 C4.5 和 CART, 第 9 章 讨 论 回 归 问 题 时 将 介绍 CART 
算法 。 

本 书 第 2 章 、 第 3 章 讨论 的 是 结果 确定 的 分 类 算法 ,数据 实例 最 终 会 被 明确 划分 到 某 个 分 类 中 。 
下 一 章 我 们 讨论 的 分 类 算法 将 不 能 完全 确定 数据 实例 应 该 划分 到 某 个 分 类 , 或 者 只 能 给 出 数据 实 
例 属于 给 定 分 类 的 概率 。 











EE 
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第 4 章 oA 
基于 概率 论 的 分 类 方 
朴素 贝 叶 斯 
| 

本 章 内 容 
口 使 用 概率 分 布 进行 分 类 | 
口 学 习 朴 素 贝 叶 斯 分 类 器 
口 解析 RSS 源 数据 


口 使 用 朴素 贝 叶 斯 来 分 析 不 同 地 区 的 态度 


前 两 章 我 们 要 求 分 类 器 做 出 艰难 决策 ， 给 出 “该 数据 实例 属于 哪 一 类 ”这 类 问题 的 明确 答 
案 。 不 过 ， 分 类 器 有 时 会 产生 错误 结果 ， 这 时 可 以 要 求 分 类 器 给 出 一 个 最 优 的 类 别 猜测 结果 , 同 
时 给 出 这 个 猜测 的 概率 估计 值 。 

概率 论 是 许多 机 器 学 习 算法 的 基础 ， 所 以 深刻 理解 这 一 主题 就 显得 十 分 重要 。 第 3 章 在 计算 
特征 值 取 某 个 值 的 概率 时 涉及 了 一 些 概率 知识 , 在 那里 我 们 先 统计 特征 在 数据 集中 取 某 个 特定 值 
的 次 数 , 然后 除 以 数据 集 的 实例 总 数 , 就 得 到 了 特征 取 该 值 的 概率 。 我 们 将 在 此 基础 上 深入 讨论 。 

本 章 会 给 出 一 些 使 用 概率 论 进 行 分 类 的 方法 。 首 先 从 一 个 最 简单 的 概率 分 类 器 开始 ,然后 给 
出 一 些 假设 来 学 习 朴 素 贝 叶 斯 分 类 器 。 我 们 称 之 为 “朴素 "， 是 因为 整个 形式 化 过 程 只 做 最 原始 、 
最 简单 的 假设 。 不 必 担 心 ， 你 会 详细 了 解 到 这 些 假 设 。 我 们 将 充分 利用 Python 的 文本 处 理 能 力 将 
文档 切 分 成 词 向 量 ， 然 后 利用 词 向 量 对 文档 进行 分 类 。 我 们 还 将 构建 另 一 个 分 类 器 ,观察 其 在 真 
实 的 垃圾 邮件 数据 集中 的 过 滤 效 果 ， 必 要 时 还 会 回顾 一 下 条 件 概 率 。 最 后 , 我 们 将 介绍 如 何 从 个 
人 发 布 的 大 量 广告 中 学 习 分 类 器 ， 并 将 学 习 结果 转换 成 人 类 可 理解 的 信息 。 


4.1 基于 贝 叶 斯 决策 理论 的 分 类 方法 


a 种 素 贝 叶 斯 富生 各 二 让 人生 和 
优点 : 在 数据 较 少 的 情况 下 仍然 有 效 ， 可 以 处 理 多 类 别 问题 。 

缺点 : 对 于 输入 数据 的 准备 方式 较为 敏感 。 

适用 数据 类 型 ， 标 称 型 数据 。 
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朴素 贝 叶 斯 是 贝 叶 斯 决策 理论 的 一 部 分 , 所 以 讲述 朴素 贝 叶 斯 之 前 有 必要 快速 了 解 一 下 贝 叶 
斯 决策 理论 。 
假设 现在 我 们 有 一 个 数据 集 ， 它 由 两 类 数据 组 成 ， 数 据 分 布 如 图 4-1 所 示 。 








图 4-1 ”两 个 参数 已 知 的 概率 分 布 ， 参 数 决 定 了 分 布 的 形状 


假设 有 位 读者 找到 了 描述 图 中 两 类 数据 的 统计 参数 。( 暂且 不 用 管 如 何 找 到 描述 这 类 数据 的 
统计 参数 ， 第 10 章 会 详细 介绍 。) 我 们 现在 用 pl (x, y) 表示 数据 点 (xy) 属 于 类 别 1 ( 图 中 用 圆 点 表 
示 的 类 别 ) 的 概率 ， 用 p2 (x,y) 表示 数据 点 (x,y) 属 于 类 别 2( 图 中 用 三 角形 表示 的 类 别 ) 的 概率 ， 
那么 对 于 一 个 新 数据 点 (x,y)， 可 以 用 下 面 的 规则 来 判断 它 的 类 别 ; 

口 如 果 pl (x,y) > p2 (x,y)， 那 么 类 别 为 1。 

口 如 果 p2(x,y) > pl(x,y)， 那 么 类 别 为 2。 

也 就 是 说 , 我 们 会 选择 高 概率 对 应 的 类 别 。 这 就 是 贝 叶 斯 决策 理论 的 核心 思想 ， 即 选择 具有 
最 高 概率 的 决策 。 回 到 图 4-1， 如 果 该 图 中 的 整个 数据 使 用 6 个 浮 点 数 ? 来 表示 ， 并 且 计 算 类 别 概 
率 的 Python 代 码 只 有 两 行 ， 那 么 你 会 更 倾向 于 使 用 下 面 昨 种 方法 来 对 该 数据 点 进行 分 类 ? 

(1) 使 用 第 1 章 的 kNN， 进 行 1000 次 距离 计算 ; 

(2) 使 用 第 2 章 的 决策 树 ， 分 别 沿 x 轴 、y 轴 划分 数据 ， 

(3) 计算 数据 点 属于 每 个 类 别 的 概率 ， 并 进行 比较 。 

使 用 决策 树 不 会 非常 成 功 ; 而 和 简单 的 概率 计算 相 比 ，kNN 的 计算 量 太 大 。 因 此 ,对 于 上 述 
问题 ， 最 佳 选择 是 使 用 刚才 提 到 的 概率 比较 方法 。 


Q@ 整个 数据 由 两 类 不 同 分 布 的 数据 构成 ， 有 可 能 只 需要 6 个 统计 参数 来 描述 。 一 一 译 者 注 
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接 下 来 ,我 们 必须 要 详 述 p1 及 p1 概 率 计 算 方法 。 为 了 能 够 计算 pl 与 pP2， 有 必要 讨论 一 下 条 件 
概率 。 如 果 你 觉得 自己 已 经 相当 了 解 条 件 概率 了 ， 那 么 可 以 直接 跳 过 下 一 节 。 


贝 叶 斯 ? | . : i 
这 里 使 用 的 概率 解释 属于 贝 叶 斯 概率 理论 的 范畴 , 该 理论 非常 流行 且 效 果 良 好 。 贝 叶 斯 概 
率 以 18 世 纪 的 一 位 神学 家 托马斯 ， 贝 叶 斯 (Thomas Bayes ) 的 名 字 命名 。 贝 叶 斯 概率 引入 先 验 
知识 和 逻辑 推理 来 处 理 不 确定 命题 。 另 一 种 概率 解释 称 为 频数 概率 ( frequency probability )， 
它 只 从 数据 本 身 获得 结论 ， 并 不 考虑 逻辑 推理 及 先 验 知识 。 


4.2 ”条件 概率 


接 下 来 花 点 时 间 讲 讲 概 率 与 条 件 概 率 。 如 果 你 对 p (x,y|c,) 符 号 很 熟悉 ， 那么 可 以 跳 过 | 
本 节 。 

假设 现在 有 一 个 装 了 7 块 石头 的 罐子 ， 其 中 3 块 是 灰色 的 ，4 块 是 黑色 的 ( 如 图 4-2 所 示 )。 如 
果 从 饶 子 中 随机 取出 一 块 石 头 , 那么 是 灰色 石头 的 可 能 性 是 多 少 ? 由 于 取石 头 有 7 种 可 能 ,其 中 3 
种 为 灰色 ， 所 以 取出 灰色 石头 的 概率 为 37。 那 么 取 到 黑色 石头 的 概率 又 是 多 少 呢 ? 很 显然 ,是 
4/7。 我 们 使 用 P(gray) 来 表示 取 到 灰色 石头 的 概率 ， 其 概率 值 可 以 通过 灰色 石头 数目 除 以 总 的 
石头 数目 来 得 到 。 | 


CC 
@@@@ 


图 4-2 ”一 个 包含 7 块 石头 的 集合 ， 石 头 的 颜色 为 灰色 或 者 黑色 。 如 果 随 机 从 中 取 一 块 
石头 ， 那 么 取 到 灰色 石头 的 概率 为 37。 类 似 地 ， 取 到 黑色 石头 的 概率 为 4/7 


如 果 这 7 块 石头 如 图 4-3 所 示 放 在 两 个 桶 中 ， 那 么 上 述 概率 应 该 如 何 计算 ? 











图 4-3 落 到 两 个 桶 中 的 7 块 石头 
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要 计算 P(gray) 或 者 P (black) ， 事 先 得 知道 石头 所 在 桶 的 信息 会 不 会 改变 结果 ? 你 有 可 能 
已 经 想到 计算 从 B 桶 中 到 到 灰色 石头 的 概率 的 办 法 ， 这 就 是 所 谓 的 条 件 概率 (conditional 
probability )。 假 定 计算 的 是 从 B 桶 取 到 灰色 石头 的 概率 ， 这 个 概率 可 以 记 作 P (gray |bucketB) ， 
我 们 称 之 为 “在 已 知 石头 出 自 B 桶 的 条 件 下 , 取出 灰色 石头 的 概率 "。 不 难得 到 , P (gray |bucketa) 
值 为 24，P (gray |bucketB) 的 值 为 1/3。 | 

条 件 概 率 的 计算 公式 如 下 所 示 ， 

P{(gray|bucketB) = P(gray and bucketB)/P (bucketB) 

我 们 来 看 看 上 述 公 式 是 否 合理 。 首 先 ， 用 B 桶 中 灰色 石头 的 个 数 除 以 两 个 桶 中 总 的 石头 数 ， 
得 到 P(gray and bucketB) = 1/7。 其 次 ， 由 于 B 桶 中 有 3 块 石头 ， 而 总 石头 数 为 ?7， 于 是 
P (bucketB) 就 等 于 3/7。 于 是 有 P(gray|bucketB) = P(gray and pucketB)/P(bucketB) = 
(1/7) / (3/7) = 1/3。 这 个 公式 虽然 对 于 这 个 简单 例子 来 说 有 点 复杂 ， 但 当 存 在 更 多 特征 时 
是 非常 有 效 的 。 用 代数 方法 计算 条 件 概率 时 ， 该 公式 也 很 有 用 。 

另 一 种 有 效 计算 条 件 概率 的 方法 称 为 贝 叶 斯 准则 。 贝 叶 斯 准则 告诉 我 们 如 何 交换 条 件 概率 中 
的 条 件 与 结果 ， 即 如 果 已 知 P (x |c) ， 要 求 P(c|x) ， 那 么 可 以 使 用 下 面 的 计算 方法 : 

_ plx|c) pee) 
| plc|x) = 

我 们 讨论 了 条 件 概率 , 接 下 来 的 问题 是 如 何 将 其 应 用 到 分 类 器 中 。 下 一 节 将 讨论 如 何 结合 贝 
叶 斯 决策 理论 使 用 条 件 概率 。 


4.3 使 用 条 件 概率 来 分 类 


4.1 节 提 到 贝 叶 斯 决策 理论 要 求 计算 两 个 概率 p1 (x，y) 和 p2 (x，y): 

口 如 果 pl (x，y) > p2(x，Yy) ， 那 么 属于 类 别 1; 

口 如 果 p2 (x，y) > pl (x，y)， 那么 属于 类 别 2。 

但 这 两 个 准则 并 不 是 贝 叶 斯 决策 理论 的 所 有 内 容 。 使 用 p1 ( ) 和 p2( ) 只 是 为 了 尽 可 能 简化 
描述 ， 而 真正 需要 计算 和 比较 的 是 p (c, |x，y) 和 p (c, |x，Yy)。 这 些 符号 所 代表 的 具体 意义 是 : 
给 定 某 个 由 x、y 表 示 的 数据 点 ， 那么 该 数据 点 来 自 类 别 c, 的 概率 是 多 少 ? 数据 点 来 自 类 别 c, 的 概 
率 又 是 多 少 ? 注意 这 些 概率 与 刚才 给 出 的 概率 p (x，y|c,) 并 不 一 样 ， 不 过 可 以 使 用 贝 叶 斯 准则 
来 交换 概率 中 条 件 与 结果 。 具 体 地 ， 应 用 贝 叶 斯 准则 得 到 : 
plx,y| ce) pc? 

ol) = py) 

使 用 这 些 定义 ， 可 以 定义 贝 叶 斯 分 类 准则 为 ; 

口 如 果 P (c,|x，y) > P(c,|x，y)， 那么 属于 类 别 c,。 

口 如 果 P(c,|x，y) < P(c,|x，y)， 那 么 属于 类 别 c,。 

使 用 贝 叶 斯 准则 , 可 以 通过 已 知 的 三 个 概率 值 来 计算 未 知 的 概率 值 。 后 面 就 会 给 出 利用 贝 叶 
斯 准则 来 计算 概率 并 对 数据 进行 分 类 的 代码 。 现 在 介绍 了 一 些 概率 理论 , 你 也 了 解 了 基于 这 些 理 
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论 构建 分 类 器 的 方法 ， 接 下 来 就 要 将 它们 付 诸 实践 。 下 一 节 会 介绍 一 个 简单 但 功能 强大 的 贝 时 斯 
分 类 器 的 应 用 案例 。， 


4.4 使 用 朴素 贝 叶 斯 进行 文档 分 类 


机 器 学 习 的 一 个 重要 应 用 就 是 文档 的 自动 分 类 。 在 文档 分 类 中 ， 整 个 文档 〈 如 一 封 电子 邮件 ) 
是 实例 , 而 电子 邮件 中 的 某 些 元 素 则 构成 特征 。 虽然 电子 邮件 是 一 种 会 不 断 增加 的 文本 , 但 我 们 同 
样 也 可 以 对 新 闻 报道 、 用 户 留言 、 政 府 公文 等 其 他 任意 类 型 的 文本 进行 分 类 。 我 们 可 以 观察 文档 中 
出 现 的 词 , 并 把 每 个 词 的 出 现 或 者 不 出 现 作为 一 个 特征 , 这 样 得 到 的 特征 数目 就 会 跟 词汇 表 中 的 词 
目 一 样 多 。 朴 素 贝 叶 斯 是 上 节 介 绍 的 中叶 斯 分 类 器 的 一 个 扩展 ， 是 用 于 文档 分 类 的 常用 算法 。 

使 用 每 个 词 作为 特征 并 观察 它们 是 否 出 现 , 这 样 得 到 的 特征 数目 会 有 多 少 呢 ?针对 的 是 哪 一 | 
种 人 类 语言 呢 ?” 当 然 不 止 一 种 语言 。 据 估计 ， 仅 在 英语 中 ， 单 词 的 总 数 就 有 500 000 之 多 。 为 了 
能 进行 英文 阅读 ,估计 需要 掌握 数 千 单词 。 





Se ， 朴素 站 叶 斯 的 一 闫 过 程 。 和 

(1) 收集 数据 : 可 以 使 用 任何 方法 。 本 章 使 用 RSS 源 。 

(2) 准备 数据 :; 需要 数值 型 或 者 布尔 型 数据 。 

(3) 分 析 数 据 : 有 大 量 特征 时 ， 绘 制 特征 作用 不 大 ， 此 时 使 用 直方 图 效果 更 好 。 

(4) 训练 算法 : 计算 不 同 的 独立 特征 的 条 件 概率 。 

(5) 测试 算法 : 计算 错误 率 。 

(6) 使 用 算法 : 一 个 常见 的 朴素 贝 叶 斯 应 用 是 文档 分 类 。 可 以 在 任意 的 分 类 场景 中 使 用 朴 
素 贝 叶 斯 分 类 器 ， 不 一 定 非 要 是 文本 。 


假设 词汇 表 中 有 1000 个 单词 。 要 得 到 好 的 概率 分 布 ,就 需要 足够 的 数据 样本 , 假定 样本 数 为 
N。 前 面 讲 到 的 约会 网 站 示例 中 有 1000 个 实例 , 手写 识别 示例 中 每 个 数字 有 200 个 样本 , 而 决策 树 
示例 中 有 24 个 样本 。 其 中 ，24 个 样本 有 点 少 ，200 个 样本 好 一 些 ， 而 1000 个 样本 就 非常 好 了 。 约 
会 网 站 例子 中 有 三 个 特征 。 由 统计 学 知 ， 如 果 每 个 特征 需要 N 个 样本 ， 那 么 对 于 10 个 特征 将 需要 
NN" 个 样本 ， 对 于 包含 1000 个 特征 的 词汇 表 将 需要 Ni%" 个 样本 。 可 以 看 到 ， 所 需要 的 样本 数 会 随 
着 特征 数目 增 大 而 迅速 增长 。 

如 果 特 征 之 间 相 互 独立 , 那么 样本 数 就 可 以 从 N'" 减 少 到 1000xN。 所 谓 独 立 (independence ) 
指 的 是 统计 意义 上 的 独立 ， 即 一 个 特征 或 者 单词 出 现 的 可 能 性 与 它 和 其 他 单词 相 邻 没有 关系 。 举 
个 例子 讲 ， 假 设 单词 bacon 出 现在 unhealthy 后 面 与 出 现在 delicious 后 面 的 概率 相同 。 当 然 ,我 们 知 
道 这 种 假设 并 不 正确 ，bacon 常 常 出 现在 delicious 附 近 ， 而 很 少 出 现在 unhealthy 附 近 ， 这 个 假设 正 
是 朴素 贝 叶 斯 分 类 器 中 朴素 (naive ) 一 词 的 含义 。 朴 素 贝 叶 斯 分 类 器 中 的 另 一 个 假设 是 ,每 个 特 





© http://hypertextbook.com/facts/2001/JohnnyLing.shtml, 2010 年 10 月 20 日 检索 结果 。 
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征 同等 重要 "。 其 实 这 个 假设 也 有 问题 。 如 果 要 判断 留言 板 的 留言 是 否 得 当 ， 那 么 可 能 不 需要 看 
完 所 有 的 1000 个 单词 , 而 只 需要 看 10 ~ 20 个 特征 就 足以 做 出 判断 了 。 尽 管 上 述 假设 存在 一 些小 的 
正 症 ， 但 朴素 贝 叶 斯 的 实际 效果 却 很 好 。 

到 目前 为 止 , 你 已 经 了 解 了 足够 的 知识 ,可 以 开始 编写 代码 了 。 如 果 还 不 清楚 ,那么 了 解 代 
码 的 实际 效果 会 有 助 于 理解 。 下 一 节 将 使 用 Python 来 实现 朴素 贝 叶 斯 分 类 器 ， 实 现 中 会 涉及 利用 
Python 进行 文本 分 类 的 所 有 相关 内 容 。 


4.5 “使 用 Python 进行 文本 分 类 


要 从 文本 中 获取 特征 ， 需 要 先 拆 分 文本 。 具 体 如 何 做 呢 ? 这 里 的 特征 是 来 自 文本 的 词 条 
(token ), 一 个 词 条 是 字符 的 任意 组 合 。 可 以 把 词 条 想象 为 单词 , 也 可 以 使 用 非 单词 词 条 , 如 URL、 
了 地 址 或 者 任意 其 他 字符 串 。 然 后 将 每 一 个 文本 片段 表示 为 一 个 词 条 向 量 ， 其 中 值 为 1 表示 词 条 
出 现在 文档 中 ，0 表 示 词 条 未 出 现 。 

以 在 线 社区 的 留言 板 为 例 。 为 了 不 影响 社区 的 发 展 , 我 们 要 屏 项 侮辱 性 的 言论 ,所 以 要 构建 一 
个 快速 过 滤器 ,如果 某 条 留言 使 用 了 负面 或 者 侮辱 性 的 语言 , 邦 么 就 将 该 留言 标识 为 内 容 不 当 。 过 
滤 这 类 内 容 是 一 个 很 常见 的 需求 。 对 此 问题 建立 两 个 类 别 : 侮辱 类 和 非 侮辱 类 , 使 用 1 和 0 分 别 表示 。 

接 下 来 首先 给 出 将 文本 转换 为 数字 向 量 的 过 程 ， 然 后 介绍 如 何 基于 这 些 向 量 来 计算 条 件 概率 ， 
并 在 此 基础 上 构建 分 类 器 ， 最 后 还 要 介绍 一 些 利 用 Python 实现 朴素 贝 叶 斯 过 程 中 需要 考虑 的 问题 。 


4.5.1 准备 数据 ， 从 文本 中 构建 词 向 量 


我 们 将 把 文本 看 成 单词 向 量 或 者 词 条 向 量 , 也 就 是 说 将 句子 转换 为 向 量 。 考 虑 出 现在 所 有 文 
档 中 的 所 有 单词 , 再 决定 将 哪些 词 纳入 词汇 表 或 者 说 所 要 的 词汇 集合 , 然后 必须 要 将 每 一 篇 文档 
转换 为 词汇 表 上 的 向 量 。 接 下 来 我 们 正式 开始 。 打 开 文本 编辑 器 ,创建 一 个 叫 bayes.py 的 新 文件 ， 
然后 将 下 面 的 程序 清单 添加 到 文件 中 。 


程序 清单 4-1 词 表 到 向 量 的 转换 函数 


def 1oadqpataSet () : 


postingList=[['my', 'dog', 'has', 'flea', \ 
'problems', 'help', 'please'], 
['maybe', not', 'take', 'him', \ 
'to', 'dog', ‘park', ‘stupid'], 
['my', 'dalmation', 'is', 'so', 'cute', \ 
'I'!, !'love', 'him']), 
['stop', 'posting', 'stupid', 'worthless', 'garbage'], 
tL'mr', ‘licks', 'ate', ‘my', ‘steak'!, ‘how',\ 


'to', 'stop’', ‘'him’'], 





OQ 朴素 贝 叶 斯 分 类 器 通常 有 两 种 实现 方式 ; 一 种 基于 贝 努 利 模型 实现 ， 一 种 基于 多 项 式 模型 实现 。 这 里 采用 前 一 种 
实现 方式 。 该 实现 方式 中 并 不 考 虚词 在 文档 中 出 现 的 次 数 ， 只 考虑 出 不 出 现 ， 因 此 在 这 个 意义 上 相当 于 假设 词 是 
等 权重 的 。4.5.4 节 给 出 的 实际 上 是 多 项 式 模型 ， 它 考虑 词 在 文档 中 的 出 现 次 数 。- 一 译 者 注 
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['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']] 
classVec = [0,1,0,1,0,1] #1 代表 和 侮 每 性 文字 ，0 代 表 正 常言 论 
return postingbist,classVec 


def createVocabList (dataSet) : = 创建 一 个 空 集 
vocabset = set([]) 
for document in dataSet: 
vocabSet = vocabSet | set (document) 


return list (vocabSset) 0 创建 两 个 集合 的 并 集 


def setOfWords2Vec(vocabList, inputSset): 
returnVec = [0]xlen(vocabList) 


for word in inputset: “8 创建 一 个 其 中 所 含 元 素 都 为 0 的 向 量 


if word in vocabList: 
returnVec[vocabList.index(word)] = 1 
else: print "the word: %s is not in my Vocabulary!" % word 
return returnVec 


第 一 个 函数 1oadpatagset () 创建 了 一 些 实验 样本 。 该 函数 返回 的 第 一 个 变量 是 进行 词 条 切 
分 后 的 文档 集合 , 这 些 文档 来 自 斑点 犬 爱 好 者 留言 板 。 这 些 留言 文本 被 切 分 成 一 系列 的 词 条 集合 ， 
标点 符号 从 文本 中 去 掉 ， 后 面 会 探讨 文本 处 理 的 细节 。1loadpataset ( ) 函数 返回 的 第 二 个 变量 
是 一 个 类 别 标签 的 集合 。 这 里 有 两 类 , 侮辱 性 和 非 侮 辱 性 。 这 些 文本 的 类 别 由 人 工 标注 ， 这 些 标 
注 信息 用 于 训练 程序 以 便 自动 检测 侮辱 性 留言 。 

下 一 个 函数 createvocabList () 会 创建 一 个 包含 在 所 有 文档 中 出 现 的 不 重复 词 的 列表 ， 为 
此 使 用 了 Python 的 set 数 据 类 型 。 将 词 条 列表 输 给 set 构 造 函 数 ，set 就 会 返回 一 个 不 重复 词 表 。 
首先 ， 创 建 一 个 空 集合 @@， 然 后 将 每 篇 文档 返回 的 新 词 集合 添加 到 该 集合 中 @@。 操 作 符 | 用 于 求 
两 个 集合 的 并 集 ， 这 也 是 一 个 按 位 或 (oR ) 操作 符 (参见 附录 C )。 在 数学 符号 表示 上 ， 按 位 或 
操作 与 集合 求 并 操作 使 用 相同 记号 。 

获得 词汇 表 后 , 便 可 以 使 用 函数 setofwords2Vec () , 该 函数 的 输入 参数 为 词汇 表 及 其 个 文 
档 ， 输 出 的 是 文档 向 量 ,向 量 的 每 一 元 素 为 1 或 0， 分 别 表 示 词 汇 表 中 的 单词 在 输入 文档 中 是 否 出 
现 。 函 数 首 先 创建 一 个 和 词汇 表 等 长 的 向 量 ， 并 将 其 元 素 都 设置 为 0 人 @。 接 着 ,遍历 文档 中 的 所 
有 单词 ， 如 果 出 现 了 词汇 表 中 的 单词 , 则 将 输出 的 文档 向 量 中 的 对 应 值 设 为 1。 一 切 都 顺利 的 话 ， 
就 不 需要 检查 某 个 词 是 否 还 在 vooabList 中 ， 后 边 可 能 会 用 到 这 一 操作 。 

现在 看 一 下 这 些 函数 的 执行 效果 ， 保 存 bayes .py 文件 ， 然 后 在 Python 提 示 符 下 输入 : 


>>> import bayes 

>>> listOPosts,1listClasses = bayes.loadDataSet () 
>>> myVocabList = bayes.createVocabList (listOPosts) 
>>> myVocabList 


['cute', 'love', 'help', 'garbage', 'quit', 'I', ‘problems', 'is', 'park', 
'Stop'， 'flea', 'dalmation', :licks', 'food', 'not', ‘him’'’, 'buying', 
'posting', 'has', 'worthljess', 'ate', 'to', 'maybe', 'please', 'dog', 
'how', 'stupid', 'so', 'take', ‘mr', 'sgteak', 'my'] 


检查 上 述 词 表 ， 就 会 发 现 这 里 不 会 出 现 重 复 的 单词 。 目 前 该 词 表 还 没有 排序 ,需要 的 话 ， 稍 
后 可 以 对 其 排序 。 
下 面 看 一 下 浮 数 setofWwords2Vec () 的 运行 效果 ; 
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>>> bayes .setOfWords2Vec (myVocabList，1istOPosts [0]) 

[0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 
0, 0, 0, 0, 0, 0, 1} 

>>> bayes.setOfWords2Vec (myVocabList, listOPosts{3]) 

[0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 
0, 1, 0, 0, 0, 0, 0] 


” ”该 函数 使 用 词汇 表 或 者 想 要 检查 的 所 有 单词 作为 输入 ， 然 后 为 其 中 每 一 个 单词 构建 一 个 特 
征 。 一 旦 给 定 一 篇 文档 (斑点 犬 网 站 上 的 一 条 留言 )， 该 文档 就 会 被 转换 为 词 向 量 。 接 下 来 检查 
一 下 函数 的 有 效 性 。myvocabList 中 索引 为 2 的 元 素 是 什么 单词 9 应 该 是 单词 help。 该 单词 在 第 
一 篇 文档 中 出 现 ， 现 在 检查 一 下 看 看 它 是 否 出 现在 第 四 篇 文档 中 。 


4.5.2 ”训练 算法 ， 从 词 向 量 计算 概率 


前 面 介绍 了 如 何 将 一 组 单词 转换 为 一 组 数字 , 接 下 来 看 看 如 何 使 用 这 些 数字 计算 概率 。 现 在 
已 经 知道 一 个 词 是 否 出 现在 一 篇 文档 中 ， 也 知道 该 文档 所 属 的 类 别 。 还 记得 3.2 节 提 到 的 贝 叶 斯 
准则 ? 我 们 重 写 贝 叶 斯 准则 ， 将 之 前 的 x、y 兰 换 为 w。 粗 体 w 表 示 这 是 一 个 向 量 ， 即 它 由 多 个 数 
值 组 成 。 在 这 个 例子 中 ， 数 值 个 数 与 词汇 表 中 的 词 个 数 相同 。 
pl l= 2 
我 们 将 使 用 上 述 公式 , 对 每 个 类 计算 该 值 , 然后 比较 这 两 个 概率 值 的 大 小 。 如 何 计算 呢 ? 首 
先 可 以 通过 类 别 i ( 侮辱 性 留言 或 非 侮辱 性 留言 ) 中 文档 数 除 以 总 的 文档 数 来 计算 概率 p (c,) 。 接 
下 来 计算 p (w|c,) ， 这 里 就 要 用 到 朴素 贝 叶 斯 假设 。 如 果 将 w 展 开 为 一 个 个 独立 特征 ， 那 么 就 可 
以 将 上 述 概率 写作 p (w,,w,,w,. .w,|c,)。 这 里 假设 所 有 词 都 互相 独立 , 该 假设 也 称 作 条 件 独立 性 
假设 ， 它 意味 着 可 以 使 用 p (wu|c )p(w |c)p(w |c,) .. .p(w|c,) 来 计算 上 述 概率 ， 这 就 极 大 地 
简化 了 计算 的 过 程 。 
该 函数 的 伪 代码 如 下 ， 
计算 每 个 类 别 中 的 文档 数目 
对 每 篇 训练 文档 : 
对 每 个 类 别 : 
如 果 词 条 出 现 文档 中 一 增加 该 词 条 的 计数 值 
增加 所 有 词 条 的 计数 值 
对 每 个 类 别 : 
对 每 个 词 条 ， 
将 该 词 条 的 数目 除 以 总 词 条 数目 得 到 条 件 概 率 
返回 每 个 类 别 的 条 件 概率 
我 们 利用 下 面 的 代码 来 实现 上 述 伪 码 。 打 开 文 本 编辑 器 ， 将 这 些 代 码 添加 到 bayes .py 文件 
中 。 该 函数 使 用 了 NumPy 的 一 些 函 数 ， 故 应 确保 将 from numpy import * 语 句 添加 到 bayes .py 
文件 的 最 前 面 。 
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程序 清单 4-2 ”朴素 贝 叶 斯 分 类 器 训练 函数 


def trainNB0 (trainMatrix,trainCategory): 

numTrainDocs = len(trainMatrix) 

” numWords = len(trainMatrix[0]) 
pAbusive = sum(trainCategory)/float (numTrainDocs) 
poONum = zeros (numWords); piliNum = zeros (numWords) | 局 抬 化 概率 
poDenom = 0.0; plDenom = 0.0 
for i in range (numTrainDocs): 

if trainCategory[i] == 1: 


piNum += trainMatrixi{i] | 局 i 


pliDenom += sum(trainMatrix[i]) 
else: 
PONum += trainMatrix[i} 
pODenom += sum(trainMatrix[i]) 
pliVect = plNum/plDenom #change to log() 


pOVect = pONum/p0ODenom #change to log() “Oe 
return pOVect ,piliVect,pAbusive 


代码 函数 中 的 输入 参数 为 文档 矩阵 trainMatrix， 以 及 由 每 篇 文档 类 别 标 签 所 构成 的 向 量 
traincategory。 首先 , 计算 文档 属于 侮辱 性 文档 (class=1 ) 的 概率 ， 即 P (1)。 因 为 这 是 一 个 二 
类 分 类 问题 ， 所 以 可 以 通过 1-P (1) 得 到 P (0)。 对 于 多 于 两 类 的 分 类 问题 ， 则 需要 对 代码 稍 加 修改 。 

计算 pb (w, |c,) 和 p (w,|c。) , 需要 初始 化 程序 中 的 分 子 变量 和 分 母 变 量 命 。 由 于 w 中 元 素 如 此 
众多 , 因此 可 以 使 用 NumPy 数 组 快速 计算 这 些 值 。 上 述 程序 中 的 分 母 变量 是 一 个 元 素 个 数 等 于 词 
汇 表 大 小 的 NumPy 数 组 。 在 for 循 环 中 , 要 遍历 训练 集 trainMatrix 中 的 所 有 文档 。 一旦 某 个 词 
语 (侮辱 性 或 正常 词语 ) 在 某 一 文档 中 出 现 ， 则 该 词 对 应 的 个 数 ( plNum 或 者 p0Num ) 就 加 1， 
而 且 在 所 有 的 文档 中 ， 该 文档 的 总 词 数 也 相应 加 1 合 。 对 于 两 个 类 别 都 要 进行 同样 的 计算 处 理 。 

最 后 ,对 每 个 元 素 除 以 该 类 别 中 的 总 词 数 @。 利 用 NymPy 可 以 很 好 实现 ， 用 一 个 数组 除 以 浮 
点 数 即 可 ， 若 使 用 常规 的 Python 列 表 则 难以 完成 这 种 任务 ,读者 可 以 自己 尝 斌 一下。 最后， 函数 
会 返回 两 个 向 量 和 一 个 概率 。 

接 下 来 试验 一 下 。 将 程序 清单 4-2 中 的 代码 添加 到 bayes,py 文 件 中 ， 在 Python 提示 符 下 输入 ， 


>>> from numpy import * 

>>> reload{bayes) 

<module ‘bayes' from ‘bayes.py'> 

>>> listOPosts,listClasses = bayes.1loadDataSet () 


该 语句 从 预先 加 载 值 中 调 人 数据 。 
>>> myVocabDist = bayes.createVocabList {listOPosts) 


至 此 我 们 构建 了 一 个 包含 所 有 词 的 列表 myVocabList。 


>>> trainMat=[] 
>>> for postinDoc in listOPosts: 
. trainMat .append (bayes.setOfWords2Vec (myVocabList，postinDoc) ) 


该 for 循 环 使 用 词 向 量 来 填充 trainMat 列 表 。 下 面 给 出 属于 侮辱 性 文档 的 概率 以 及 两 个 类 别 的 
概率 向 量 。 


>>> pOV,Pp1V,pAb=bayes .trainNB0 (trainMat, listClasses) 
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接 下 来 看 这 些 变量 的 内 部 值 : 


>>> pAb 


0.5 
这 就 是 任意 文档 属于 侮辱 性 文档 的 概率 。 


>>> pOV 

array({[ 0.04166667, 0.04166667， 0.04166667， 0. : 0. 
0.04166667, 0. 1 0.04166667, 0. 1: 0.04166667， 
0.04166667, 0.125 ]) 

>>> plV 

artzay([ 0. ， 0， 全. 0 /，， 0.05263158， 0.05263158， 
0 . 1: 0.15789474, 0. ， 0.05263158, 0. 


Oa a 0 ]) 

首先 ,我 们 发 现 文档 属于 侮辱 类 的 概率 pAb 为 0.5， 该 值 是 正确 的 。 接 下 来 ,看 一 看 在 给 定 文 
档 类 别 条 件 下 词汇 表 中 单词 的 出 现 概率 , 看 看 是 否 正确 。 词汇 表 中 的 第 一 个 词 是 cute, 其 在 类 别 0 
中 出 现 1 次 ， 而 在 类 别 1 中 从 未 出 现 。 对 应 的 条 件 概 率 分 别 为 0.041 666 67 与 0.0。 该 计算 是 正确 的 。 
我 们 找 找 所 有 概率 中 的 最 大 值 ， 该 值 出 现在 P(1) 数组 第 21 个 下 标 位 置 ， 大 小 为 0.157 894 74。 在 
myVocabList 的 第 26 个 下 标 位 置 上 可 以 查 到 该 单词 是 stupid。 这 意味 着 stupid 是 最 能 表征 类 别 !( 侮 
辱 性 文档 类 ) 的 单词 。 

使 用 该 函数 进行 分 类 之 前 ， 还 需 解决 函数 中 的 一 些 缺 陷 。 


4.5.3 ”测试 算法 根据 现实 情况 修改 分 类 器 


利用 贝 叶 斯 分 类 器 对 文档 进行 分 类 时 , 要 计算 多 个 概率 的 乘积 以 获得 文档 属于 某 个 类 别 的 概 
率 , 即 计 算 p (w。|1)p (w, |1)p(w,|1)。 如 果 其 中 一 个 概率 值 为 0， 那么 最 后 的 乘积 也 为 0。 为 降低 
这 种 影响 ， 可 以 将 所 有 词 的 出 现 数 初始 化 为 1， 并 将 分 母 初始 化 为 2。 

在 文本 编辑 器 中 打开 bayes.py 文 件 ， 并 将 trainNB0 () 的 第 4 行 和 第 5 行 修改 为 : 


pONum = ones (numWords); plNum = ones (numWords) 
poDenom = 2.0; pliDenom = 2.0 


另 一 个 遇 到 的 问题 是 下 溢出 ， 这 是 由 于 太 多 很 小 的 数 相 乘 造成 的 。 当 计算 乘积 
p(w|ci)p(w|c) p(w,|c) .plwlc) 时 ， 由 于 大 部 分 因子 都 非常 小 ,所 以 程序 会 下 溢出 或 考 
得 到 不 正确 的 答案 。( 读者 可 以 用 Python 尝试 相 乘 许多 很 小 的 数 ， 最 后 四 舍 五 人 后 会 得 到 0。) 一 
种 解决 办 法 是 对 乘积 取 自 然 对 数 。 在 代数 中 有 ln (a*b) = ln(a)+ln(b) ， 于 是 通过 求 对 数 可 以 
避免 下 溢出 或 者 浮 点 数 伟人 导致 的 错误 。 同 时 ， 采 用 自然 对 数 进 行 处 理 不 会 有 任何 损失 。 图 4-4 
给 出 函数 f (x) 与 In (E(x) ) 的 曲线 。 检 查 这 两 条 曲线 ， 就 会 发 现 它们 在 相同 区 域内 同时 增加 或 者 
减少 ， 并 且 在 相同 点 上 取 到 极 值 。 它 们 的 取 值 虽然 不 同 ， 但 不 影响 最 终结 果 。 通 过 修改 return 
前 的 两 行 代码 ， 将 上 述 做 法 用 到 分 类 器 中 ; 


plVect = log (plNum/plDenom) 
pOVect = log {pONum/pODenom) 
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~1.0 
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IJn(f(x)) 
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一 3， 
%.6 0.1 0.2 0.3 0.4 0.5 


图 4-4 ”函数 f(x) 与 1n (f(x) ) 会 一 块 增 大 。 这 表明 想 求 函数 的 最 大 值 时 ， 可 以 使 用 该 
函数 的 自然 对 数 来 蔡 换 原 函 数 进行 求解 


现在 已 经 准备 好 构建 完整 的 分 类 器 了 。 当 使 用 NumPy 向 量 处 理 功 能 时 , 这 一 切 变 得 十 分 简单 。 
打开 文本 编辑 器 ， 将 下 面 的 代码 添加 到 bayes.py 中 : 


程序 清单 4-3 ”朴素 贝 叶 斯 分 类 函数 


def classifyNB (vec2Cl1assify，P0Vec，Pp1Vec，PClass1) : 


pl =. sum(vec2Classify * plVec) + log(PCl1ass1) 
p0 = sum{(vec2Classify * pOVec) + log(1.0 - pClass1) 0 元 素 相 乘 
if pl > po0: 
return 1 
else: 
return 0 


def testingNB(): 
listOPosts,listClasses = loadDataSet () 
myVocabList = createVocabList (listOPosts) 
trainMat=[] 
for postinDoc in listOPosts: 


trainMat .append (setOfWords2Vec (myVocabList, postinDoc)) 
pOV,PpiV,pAb = trainNB0 (array (trainMat),array (listClasses)) 


testEntry = ['love', 'my', 'dalmation'] 
thisDoc = array (setOfWords2Vec (myVocabList, testEntry)) 
print testEntry,'classified as: ',classifyNB (thisDoc,pOV,Pp1V,pADb) 


testEntry = ['stupid', 'garbage'] 
thisDoc = array (setOfWords2Vec (myVocabList, testEntry)) | 
print testEritry,'classified as: ',classifyNB(thisDoc,pOV,p1V,PAb) 


程序 清单 4-3 的 代码 有 4 个 输入 ; 要 分 类 的 向 量 vec2classi fy 以 及 使 用 函数 trainNB0 () 计 
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算得 到 的 三 个 概率 。 使 用 NumPy 的 数组 来 计算 两 个 向 量 相 乘 的 结果 @。 这 里 的 相 乘 是 指 对 应 元 素 
相 乘 ， 即 先 将 两 个 向 量 中 的 第 1 个 元 素 相 乘 ， 然 后 将 第 2 个 元 素 相 习 ， 以 此 类 推 。 接 下 来 将 词汇 表 
中 所 有 词 的 对 应 值 相 加 ， 然 后 将 该 值 加 到 类 别 的 对 数 概率 上 。 最 后 ， 比 较 类 别 的 概率 返回 大 概率 
对 应 的 类 别 标签 。 这 一 切 不 是 很 难 ， 对 吧 ? 

代码 的 第 二 个 函数 是 一 个 便利 函数 ( convenience function )， 该 函数 封装 所 有 操作 ， 以 节省 输 
人 4.3.1 节 中 代码 的 时 间 。 

下 面 来 看 看 实际 结果 。 将 程序 清单 4-3 中 的 代码 添加 之 后 ， 在 Python 提示 符 下 输入 


>>> reload (bayes) 

<module 'bayes' from 'bayes.pyc'> 

>>>bayes .testingNB () 

['love', 'my', ‘'dalmation'] classified as: 0 
['stupid', 'garbage'] classified as: 1 


对 文本 做 一 些 修改 , 看 看 分 类 器 会 输出 什么 结果 。 这 个 例子 非常 简单 ,但 是 它 展示 了 朴素 由 
叶 斯 分 类 器 的 工作 原理 。 接 下 来 ， 我 们 会 对 代码 做 些 修改 ， 使 分 类 器 工作 得 更 好 。 


4.5.4 ”准备 数据 ， 文档 词 袋 模型 


目前 为 止 , 我 们 将 每 个 词 的 出 现 与 否 作为 一 个 特征 , 这 可 以 被 描述 为 词 集 模型 (set-of-words 
model )。 如 果 一 个 词 在 文档 中 出 现 不 止 一 次 , 这 可 能 意味 着 包含 该 词 是 否 出 现在 文档 中 所 不 能 表 
达 的 某 种 信息 ， 这 种 方法 被 称 为 词 袋 模型 (bag-of-words model )。 在 词 袋 中 ， 每 个 单词 可 以 出 现 
多 次 ， 而 在 词 集中 ， 每 个 词 上 只 能 出 现 一 次 。 为 适应 词 袋 模型 ， 需 要 对 函数 setofwWords2Vec () 
稍 加 修改 ， 修 改 后 的 函数 称 为 bpagofwords2Vec () 。 

下 面 的 程序 清单 给 出 了 基于 词 袋 模型 的 朴素 贝 叶 斯 代码 。 它 后 ee () 几 乎 
完全 相同 ， 唯 一 不 同 的 是 每 当 遇 到 一 个 单词 时 ， 它 会 增加 词 向 量 中 的 对 应 值 ， 而 不 只 是 将 对 应 的 
数值 设 为 1。 


程序 清单 4-4 ”朴素 贝 叶 斯 词 线 模型 


def bagOfWords2VecMN (vocabList, inputSset): 
returnVvec = [0]*len(vocabList) 
for word in inputSet : 
if word in vocabList: 
returnVec[lvocabList.index(word)] += 1 
return returnVec 


现在 分 类 器 已 经 构建 好 了 ， 下 面 我 们 将 利用 该 分 类 器 来 过 滤 垃 圾 邮件 。 


4.6 示例 : 使 用 朴素 贝 叶 斯 过 滤 垃 圾 邮件 


在 前 面 那个 简单 的 例子 中 ,我们 引入 了 字符 串 列 表 。 使 用 朴素 贝 叶 斯 解决 一 些 现实 生活 中 
的 问题 时 ， 需 要 先 从 文本 内 容 得 到 字符 串 列 表 ， 然 后 生成 词 向 量 。 下 面 这 个 例子 中 ,我 们 将 了 
解 朴素 贝 叶 斯 的 一 个 最 著名 的 应 用 : 电子 邮件 垃圾 过 滤 。 首 先 看 一 下 如 何 使 用 通用 框架 来 解决 
该 问题 。 
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人 示例 , 使 用 朴素 贝 叶 斯 对 电子 邮件 进行 分 类 “| 
”。 (1) 收集 数据 : 提供 文本 文件 。 

(2) 准备 数据 : 将 文本 文件 解析 成 词 条 向 量 。 

(3) 分 析 数 据 : 检查 词 条 确保 解析 的 正确 性 。 

(4) 训练 算法 : 使 用 我 们 之 前 建立 的 trainNB0 () 函数 。 

(5) 测试 算法 使 用 classifyNB{()， 并 且 构 建 一 个 新 的 测试 函数 来 计算 文档 集 的 错误 率 。 
(6) 使 用 算法 构建 一 个 完整 的 程序 对 一 组 文档 进行 分 类 ， 将 错 分 的 文档 输出 到 屏幕 上 。 


下 面 首先 给 出 将 文本 解析 为 词 条 的 代码 。 然 后 将 该 代码 和 前 面 的 分 类 代码 集成 为 一 个 函数 ， 
该 函数 在 测试 分 类 器 的 同时 会 给 出 错误 率 。 


4.6.1 准备 数据 : 切 分 文本 


前 一 节 介绍 了 如 何 创建 词 向 量 , 并 基于 这 些 词 向 量 进行 朴素 贝 叶 斯 分 类 的 过 程 。 前 一 节 中 的 
词 向 量 是 预先 给 定 的 ， 下 面 介 绍 如 何 从 文本 文档 中 构建 自己 的 词 列表 。 

对 于 一 个 文本 字符 串 ， 可 以 使 用 python 的 string .split () 方 法 将 其 切 分 。 下 面 看 看 实际 的 
运行 效果 。 在 Python 提 示 符 下 输入 : 

>>> mySent='This book is the best book on Python or M.L. I have ever laid 

ww eyes upon.! 

>>> mySent.split() 

['This', 'book', 'is', 'the', 'best', 'book', 'on', 'Python', 'or', 'M.L.', 

‘I', 'have', '‘'ever', 'laid', 'eyes', 'upon.'] 

可 以 看 到 , 切 分 的 结果 不 错 , 但 是 标点 符号 也 被 当成 了 词 的 一 部 分 。 可 以 使 用 正则 表示 式 来 切 分 
句子 ， 其 中 分 隔 符 是 除 单词 、 数 字 外 的 任意 字符 串 。 

>>> import re 

>>> regEx = re.compile('\\W*') 

>>> listOfTokens = regEx.split (mySent) 

>>> listOfTokens 

[LU'This', 'book', 'is', 'the', ‘best', ‘book', ‘on', ‘Python', ‘or', ‘M', 

ID '', 'I', 'have', 'ever', 'laid', 'eyes', 'upon', ''] 
现在 得 到 了 一 系列 词组 成 的 词 表 ， 但 是 里 面 的 空 字 符 串 需要 去 掉 。 可 以 计算 每 个 字符 串 的 长 度 ， 
只 返回 长 度 大 于 0 的 字符 曲 。 

>>> [tok for tok in listOfTokens if len(tok) > 0] | 


最 后 ， 我 们 发 现 句子 中 的 第 一 个 单词 是 大 写 的 。 如 果 目 的 是 句子 查找 ， 那 么 这 个 特点 会 很 有 用 。 





但 这 里 的 文本 只 看 成 词 袋 ， 所 以 我 们 希望 所 有 词 的 形式 都 是 统一 的 ， 不 论 它们 出 现在 句子 中 间 、 
结尾 还 是 开头 。 

Python 中 有 一 些 内 咯 的 方法 , 可 以 将 字符 串 全 部 转换 成 小 写 ( .lower () ) 或 者 大 写 ( .upper() )， 
上 背 助 这 些 方法 可 以 达到 目的 。 于 是 ， 可 以 进行 如 下 处 理 ; 


>>> [tok.lower() for tok in listOfTokens if len(tok) > 0] 
{'this', ‘book', 'is', 'the', 'best', 'book',.'on', 'ipython', 'or', 'm', 








wwaibbt.com DODOODOD 








66 第 4 章 基于 概率 论 的 分 类 方法 ; 朴素 贝 叶 斯 








1 ， 'have', 'ever’', 'laid', 'eyes', 'upon'] 
现在 来 看 数据 集中 一 封 完整 的 电子 邮件 的 实际 处 理 结果 。 该 数据 集 放 在 email 文 件 夹 中 ， 该 
文件 夹 又 包含 两 个 子 文件 夹 ， 分 别 是 spam 与 ham。 


>>> emailText = open('email/ham/é6.txt') .read!() 
>>> listOfTokens=regEx.split (emailText) 


文件 夹 ham 下 的 6.txt 文 件 非常 长 ， 这 是 某 公 司 告知 我 他 们 不 再 进行 某 些 支持 的 一 封 邮 件 。 需 
要 注意 的 是 ， 由 于 是 URL: answerpy?hl=en&answer=174623 的 一 部 分 ， 因 而 会 出 现 en 和 py 这 样 的 
单词 。 当 对 URL 进 行 切 分 时 ， 会 得 到 很 多 的 词 。 我 们 是 想 去 掉 这 些 单词 ， 因 此 在 实现 时 会 过 滤 掉 
长 度 小 于 3 的 字符 串 。 本 例 使 用 一 个 通用 的 文本 解析 规则 来 实现 这 一 点 。 在 实际 的 解析 程序 中 ， 
要 用 更 高 级 的 过 滤 髓 来 对 诸如 HTML 和 URI 的 对 象 进 行 处 理 。 目 前， 一 个 URI 最 终 会 解析 成 词汇 
表 中 的 单词 ， 比 如 www.whitehouse.gov 会 被 解析 为 三 个 单词 。 文 本 解析 可 能 是 一 个 相当 复杂 的 过 
程 。 接 下 来 将 构建 一 个 极其 简单 的 函数 ， 你 可 以 根据 情况 自行 修改 。 


4.6.2 ”测试 算法 ， 使 用 朴素 贝 叶 斯 进行 交叉 验证 


下 面 将 文本 解析 器 集成 到 一 个 完整 分 类 器 中 。 打 开 文 本 编辑 器 , 将 下 面 程序 清单 中 的 代码 添 
加 到 bayes.py 文 件 中 。 


程序 清单 4-5 文件 解析 及 完整 的 垃圾 邮件 测试 函数 


def textPparse (bigString) : 
import re 
listOfTokens = re.split(r'\W*', bigstring) 
return [tok.lower() for tok in listOfTokens if len(tok) > 2] 


def spamTest (): 
docList=[]; classList = []; fullText =[{] 
. for i in range(1,26): 

wordList = textParse (open('email/spam/%d.txt' % i).read()) 
docList .append (wordList) 
fullText .extend (worGList) 
classList.append (1) 
wordList = textPparse (open('email/ham/%d.txt' % i).read!()) 
docList .append (wordList) 
fullText .extend (wordList) 导入 并 解析 文本 文件 
classList .append({(0) 

vocabList = createVocabList (docList) 

trainingSet = range(50); testSet=[] 

for i in range (10): 
randindex = int(random.uniform(0,1len(trainingSet))) 
testSet .append (trainingset {randIindex]) 
del (trainingSet [randIindex] ) 

trainMat=[]; trainClasses = [] 

for docIindex in trainingSet : 
trainMat .append (setOfWords2Vec (vocabList, docList [docIndex])) 
trainClasses.append {classList {docIndex]) 

POV,P1V,pSpam = trainNB0 (array (trainMat),array (trainClasses)) 

errorCount = 0 


随机 构建 训练 集 








WA ai bbt. com 口 口 0 



































4.6 示例 ; 使 用 朴素 贝 叶 斯 过 滤 垃 圾 邮件 67 


for docIindex in testSet : 
wordVector = getOfWords2Vec {vocabList, docList [aocInaex]) 





if classifyNB (array (wordVector) ,pOV,p1V,pSpam) != oY 
classList [docIindex] : 对 测试 集 分 类 


errorCount += 1 
print 'the error rate is: ',float(errorCount)/len(testSet) 


第 一 个 函数 extParse () 接受 一 个 大 字符 申 并 将 其 解析 为 字符 串 列表 。 该 函数 去 掉 少 于 两 
个 字符 的 字符 串 ， 并 将 所 有 字符 串 转 换 为 小 写 。 你 可 以 在 函数 中 添加 更 多 的 解析 操作 ， 但 是 目前 
的 实现 对 于 我 们 的 应 用 足够 了 。 

第 二 个 函数 spamTest () 对 贝 叶 斯 垃圾 邮件 分 类 器 进行 自动 化 处 理 。 导 入 文件 夹 spam 与 ham 
下 的 文本 文件 ,并 将 它们 解析 为 词 列表 人 @。 接 下 来 构建 一 个 测试 集 与 一 个 训练 集 ,两 个 集合 中 的 
邮件 都 是 随机 选 出 的 。 本 例 中 共有 50 封 电子 邮件 ， 并 不 是 很 多 ， 其 中 的 10 封 电子 邮件 被 随机 选择 
为 测试 集 。 分 类 器 所 需要 的 概率 计算 只 利用 训练 集中 的 文档 来 完成 。Python 变 量 ErainingSet 
是 一 个 整数 列表 ， 其 中 的 值 从 0 到 49。 接 下 来 ， 随 机 选择 其 中 10 个 文件 个 。 选 择 出 的 数字 所 对 应 
的 文档 被 添加 到 测试 集 ， 同 时 也 将 其 从 训练 集中 剔除 。 这 种 随机 选择 数据 的 一 部 分 作为 训练 集 ， 
而 剩余 部 分 作为 测试 集 的 过 程 称 为 留存 交叉 验证 (hold-out cross validation )。 假 定 现在 只 完成 了 
一 次 迭代 ， 那 么 为 了 更 精确 地 估计 分 类 器 的 错误 率 ， 就 应 该 进行 多 次 近代 后 求 出 平均 错误 率 。 

接 下 来 的 for 循 环 遍历 训练 集 的 所 有 文档 ， 对 每 封 邮 件 基于 词汇 表 并 使 用 setOfWords2Vec () 
函数 来 构建 词 向 量 。 这 些 词 在 tzainqdNB0 () 函数 中 用 于 计算 分 类 所 需 的 概率 。 然 后 遍历 测试 集 ， 
对 其 中 每 封 电 子 邮件 进行 分 类 @@。 如 果 邮 件 分 类 错误 ， 则 错误 数 加 1， 最 后 给 出 总 的 错误 百分比 。 

下 面 对 上 述 过 程 进行 尝试 。 输 入 程序 清单 4-5 的 代码 之 后 ， 在 Python 提示 符 下 输入 

>>> bayes.spamTest () 

the error rate 1i9: 0.0 

>>> bayes.spamTest () 

classification error ['home', 'based', 'business', ‘'opportunity', 

'knocking', ‘your', 'door', 'don', 'rude', 'and', 'let', 'this', 'chance', 

‘you', ‘can', ‘earn', ‘'great', 'income’', ‘and', 'find'’', 'your', 

‘financial', 'life', 'transformed', 'learn', 'more', 'here’', 'your'!, 


'success'!, 'work', 'from', ‘'home', 'finder', 'experts'] 
the error rate is: 0.1 


函数 spamTest () 会 输出 在 10 封 随机 选择 的 电子 邮件 上 的 分 类 错误 率 。 既 然 这 些 电 子 邮 件 
是 随机 选择 的 ， 所 以 每 次 的 输出 结果 可 能 有 些 差 别 。 如 果 发 现 错误 的 话 ， 函 数 会 输出 错 分 文 
档 的 词 表 ， 这 样 就 可 以 了 解 到 底 是 哪 篇 文档 发 生 了 错误 。 如 果 想 要 更 好 地 估计 错误 率 ， 那 么 
就 应 该 将 上 述 过 程 重复 多 次 ， 比 如 说 10 次 ， 然 后 求 平均 值 。 我 这 么 做 了 一 下 ， 获 得 的 平均 错 
误 率 为 6%。 

这 里 一 直 出 现 的 错误 是 将 垃圾 邮件 误 判 为 正常 邮件 。 相 比 之 下 , 将 垃圾 邮件 误 判 为 正常 邮件 
要 比 将 正常 邮件 归 到 垃圾 邮件 好 。 为 避免 错误 ， 有 多 种 方式 可 以 用 来 修正 分 类 器 ， 这 些 将 在 第 7 
章 中 进行 讨论 。 

目前 我 们 已 经 使 用 朴素 贝 叶 斯 来 对 文档 进行 分 类 , 接 下 来 将 介绍 它 的 另 一 个 应 用 。 下 一 个 例 
子 还 会 给 出 如 何 解 释 朴 素 贝 叶 斯 分 类 器 训练 所 得 到 的 知识 。 
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4.7 示例 : 使 用 朴素 贝 叶 斯 分 类 器 从 个 人 广告 中 获取 区 域 倾 向 


本 章 的 最 后 一 个 例子 非常 有 趣 。 我 们 前 面 介绍 了 朴素 贝 时 斯 的 两 个 实际 应 用 的 例子 ,第 一 个 
例子 是 过 滤 网 站 的 恶意 留言 ， 第 二 个 是 过 滤 垃 圾 邮件 。 分 类 还 有 大 量 的 其 他 应 用 。 我 曾经 见 过 有 
人 使 用 朴素 贝 叶 斯 内 他 喜欢 及 不 喜欢 的 女性 的 社交 网 络 档案 学 习 相 应 的 分 类 狂 , 然后 利用 该 分 类 
器 测试 他 是 否 会 喜欢 一 个 陌生 女人 。 分 类 的 可 能 应 用 确实 有 很 多 ， 比 如 有 证 据 表示 ， 人 的 年 龄 越 
大 , 他 所 用 的 词 也 越 好 。 那 么 ,可 以 基于 一 个 人 的 用 词 来 推测 他 的 年 龄 吗 ?除了 年 龄 之 外 ， 还 能 
否 推测 其 他 方面 ? 广告 商 往往 想 知道 关于 一 个 人 的 一 些 特定 人 口 统计 信息 , 以 便 能 够 更 好 地 定向 
推销 广告 。 从 哪里 可 以 获得 这 些 训练 数据 呢 ? 事实 上 , 互联 网 上 拥有 大 量 的 训练 数据 。 几 乎 任 一 
个 能 想到 的 利 基 市 场 " 都 有 专业 社区 ， 很 多 人 会 认为 自己 属于 该 社区 。4.3.1 节 中 的 斑点 厂 爱 好 者 
网 站 就 是 一 个 非常 好 的 例子 。 

在 这 个 最 后 的 例子 当中 , 我 们 将 分 别 从 美国 的 两 个 城市 中 选取 一 些 人 , 通过 分 析 这 些 人 发 布 的 
征婚 广告 信息 , 来 比较 这 两 个 城市 的 人 们 在 广告 用 词 上 是 否 不 同 。 如 果 结论 确实 是 不 同 , 那么 他 们 
各 自 常 用 的 词 是 哪些 ? 从 人 们 的 用 词 当中 ， 我 们 能 否 对 不 同城 市 的 人 所 关心 的 内 容 有 所 了 解 ? 


Es 





(1) 收集 数 据 ， 从 RSS 源 收集 内 容 ， 这 里 需要 对 RSS 源 构建 一 个 接口 。 

(2) 准备 数据 : 将 文本 文件 解析 成 词 条 向 量 。 

(3) 分 析 数 据 : 检查 词 条 确保 解析 的 正确 性 。 

(4) 训练 算法 : 使 用 我 们 之 前 建立 的 trainNB0 () 函数 。 

(5) 测试 算法 : 观察 错误 率 ， 确 保 分 类 器 可 用 。 可 以 修改 切 分 程序 ， 以 降低 错误 率 ， 提高 
分 类 结果 。 

(6) 使 用 算法 : 构建 一 个 完整 的 程序 ， 封 装 所 有 内 容 。 给 定 两 个 RSS 源 ， 该 程序 会 显示 最 
常用 的 公共 词 。 


下 面 将 使 用 来 自 不 同城 市 的 广告 训练 一 个 分 类 器 ,然后 观察 分 类 器 的 效果 。 我 们 的 目的 并 不 
是 使 用 该 分 类 器 进行 分 类 ， 而 是 通过 观察 单词 和 条 件 概率 值 来 发 现 与 特定 城市 相关 的 内 容 。 


4.7.1 收集 数据 : 导入 RSS 源 


接 下 来 要 做 的 第 一 件 事 是 使 用 Python 下 载 文本 。 幸 好 ， 利 用 RSS ， 这 些 文本 很 容易 得 到 。 现 
在 所 需要 的 是 一 个 RSS 阅 读 器 。Universal Feed Parser 是 Python 中 最 常用 的 RSS 程 序 库 。 





@ 利 基 (niche ) 是 指针 对 企业 的 优势 细 分 出 来 的 市 场 ， 这 个 市 场 不 大 ， 而 且 没有 得 到 令 人 满意 的 服务 。 产 品 推进 这 
个 市 场 ， 有 盈利 的 基础 。 在 这 里 特 指针 对 性 和 专业 性 都 很 强 的 产品 。 也 就 是 说 ， 利 基 是 细 分 市 场 没有 被 服务 好 的 
群体 。 一 一 译 者 注 
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你 可 以 在 http:/Wcode.googie.com/p/feedparser/ 下 浏览 相关 文档 ， 然 后 和 其 他 Python 包 一 样 来 安 
装 feedparse。 首先 解压 下 载 的 包 ， 并 将 当前 目录 切换 到 解压 文件 所 在 的 文件 来， 然后 在 Python 提 
示 符 下 敲 人 >>python setup.py install。 

下 面 使 用 Craigslist 上 的 个 人 广告 ， 当 然 希望 是 在 服务 条 款 允 许 的 条 件 下 。 打 开 Craigslist 上 的 
RSS 源 ， 在 Python 提示 符 下 输入 : 


>>> import feedparser 
>>>ny=feedparser.parse('http://newyork.craigslist.org/stp/index.rss') 


我 决定 使 用 Craigslist 中 比较 纯洁 的 那 部 分 内 容 ， 其 他 内 容 稍 显 少 儿 不 宜 。 你 可 以 查阅 
feedparser.org 中 出 色 的 说 明文 档 以 及 RSS 源 。 要 访问 所 有 条 目的 列表 ,输入 : 


>>> ny['entries'] 
>>> len(ny['entries']) 
100 


可 以 构建 一 个 类 似 于 spamrest () 的 函数 来 对 测试 过 程 自动 化 。 打 开 文本 编辑 器 ， 输 入 下 列 
程序 清单 中 的 代码 。 


程序 清单 4-6 ”RSS 源 分 类 器 及 高 频 词 去 除 函 数 


def calcMostFreq (vocabList,fullText): 
import operator 
freqDict = {} 
for token in vocabList: 
freqDict [token] =fulliText .count (token) 
sortedFreq = sorted(freqDict.iteritems(), key=operator,itemgetter(1),\ 
reverse=True) 
return sortedFreq[:30] 


计算 出 现 频 率 


def localWords (feedl, feed0) : 
import feedparser ; 
docList=[]; classList = []; fullText =[] 
minLen = min(lenl(feedli['entries']),len(feed0['entries'])) 
for i in range (minLen): 


wordList = textPparse (feedi{l'entries'}) ij ['summary']) 
docList .append (wordList) 
每 次 访问 一 


fuliText .extend (wordList) 

classList.append(1) 条 RSS 源 

wordList = textparse (feed0 ['entries'] [i] ['summary']) 

docList .append (wordList) 

fullText .extend (wordList) 

classLisgst .append (0) a 
vocabList = createVocabList (docList) 去 掉 出 现 次 数 最 
top30Words = calcMostFreq (vocabList,fullText) 高 的 那些 词 
for pairW in top30Words: 

if pairw[0] in vocabList: vocabList.remove (pairw[0]) 
trainingSet = range (2*minLen),; testset=[{] 
for i in range(20): 

randindex = int{(random.uniform{0,1enl(trainingSet))) 

testSet .append (trainingSet [randIindex]) 

del (trainingSet [randIindex]}) 
trainMat=[]; trainClasses = [] 
for docIndex in trainingSet : 
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trainMat .append (bagOfWords2VecMN (vocabList, docList [aocIndex] ) ) 
trainClasses.append (classList [docIndex]) 
POV,Pp1V,pSpam = trainNB0 (array (trainMat) ,array (trainClasses)) 
errorCount = 0 
for docIindex :in testSet : 
wordVector = bagOfWords2VecMN (vocabList, docList [docTndex] ) 
if classifyNB (array (wordVector) ,pOV,piV,pSpam) != \ 
classList [docIndex]: | 
errorCount += 1 
print 'the error rate is: ',float (errorCount)/len(testSet) 
return vocabList,pOV,p1V 


上 述 代码 类 似 程 序 清单 4-5 中 的 函数 spamTest () , 不 过 添加 了 新 的 功能 。 代码 中 引入 了 一 个 
辅助 函数 calcMostFreq() 全。 该 函数 遍历 词汇 表 中 的 每 个 词 并 统计 它 在 文本 中 出 现 的 次 数 ， 然 
后 根据 出 现 次 数 从 高 到 低 对 词典 进行 排序 ， 最 后 返回 排序 最 高 的 100 个 单词 。 你 很 快 就 会 明白 这 
个 函数 的 重要 性 。 

下 一 个 函数 localwords () 使 用 两 个 RSS 源 作为 参数 。RSS 源 要 在 函数 外 导 和 人 ， 这 样 做 的 原 
因 是 RSS 源 会 随时 间 而 改变 。 如 果 想 通过 改变 代码 来 比较 程序 执行 的 差异 ， 就 应 该 使 用 相同 的 输 
人 。 重 新 加 载 RSS 源 就 会 得 到 新 的 数据 ,但 很 难 确定 是 代码 原因 还 是 输入 原因 导致 输出 结果 的 改 
变 。 函 数 1ocalwords () 与 程序 清单 4-5 中 的 spamTest () 函数 几乎 相同 ， 区 别 在 于 这 里 访问 的 是 
RSS 源 全 而 不 是 文件 。 然 后 调用 函数 calcMostFreq () 来 获得 排序 最 高 的 100 个 单词 并 随后 将 它 
们 移 除 全 。 函数 的 剩余 部 分 与 spamTest () 基本 类 似 , 不 同 的 是 最 后 一 行 要 返回 下 面 要 用 到 的 值 。 

你 可 以 注释 掉 用 于 移 除 高 频 词 的 三 行 代码 , 然后 比较 注释 前 后 的 分 类 性 能 合 。 我 自己 也 尝试 
了 一 下 ， 去 掉 这 几 行 代码 之 后 ， 我 发 现 错误 率 为 54%， 而 保留 这 些 代码 得 到 的 错误 率 为 70%。 这 
里 观察 到 的 一 个 有 趣 现象 是 ,这些 留言 中 出 现 次 数 最 多 的 前 30 个 词 涵盖 了 所 有 用 词 的 30%。 我 在 
进行 测试 的 时 候 ，vocabList 的 大 小 约 为 3000 个 词 。 也 就 是 说 , 词汇 表 中 的 一 小 部 分 单词 却 占据 
了 所 有 文本 用 词 的 一 大 部 分 。 产 生 这 种 现象 的 原因 是 因为 语言 中 大 部 分 都 是 宛 余 和 结构 辅助 性 内 
容 。 另 一 个 常用 的 方法 是 不 仅 移 除 高 频 词 ， 同 时 从 某 个 预定 词 表 中 移 除 结构 上 的 辅助 词 。 该 词 表 
称 为 停 用 词 表 ( stop word list ), 目前 可 以 找到 许多 停 用 词 表 ( 在 本 书写 作 期 间 , http://www.ranks.nl/ 
resources/stoppwords.html 上 有 一 -个 很 好 的 多 语言 停 用 词 列 表 )。 

将 程序 清单 4-6 中 的 代码 加 入 到 bayes .py 文件 之 后 ， 可 以 通过 输入 如 下 命令 在 Python 中 进行 
测试 

>>> reload (bayes) 

<module :bayes' from 'bayes.py'> 

>>>ny=feedparser.parse('http://newyork.craigslist .org/stp/index.rss') 

>>>sf=feedparser.parse('http://sfbay.craigslist.org/stp/index.rss') 

>>> vocabList ,pSF,PNY=bayes .localWords (ny, sf) 

the error rate is: 0.1 


>>> vocabList,pSF,PNY=bayes .localWords (ny, sf) 
the error rate is: 0.35 


为 了 得 到 错误 率 的 精确 估计 , 应 该 多 次 进行 上 述 实验 ,然后 取 平 均值 。 这 里 的 错误 率 要 远 高 
于 垃 圾 邮件 中 的 错误 率 。 由 于 这 里 关注 的 是 单词 概率 而 不 是 实际 分 类 ， 因 此 这 个 问题 倒 不 严重 。 
可 以 通过 函数 caclMostFreq() 改 变 要 移 除 的 单词 数目 ， 然 后 观察 错误 率 的 变化 情况 。 
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4.7.2 ”分析 数据 ， 显示 地 域 相关 的 用 词 


可 以 先 对 向 量 pSF 与 PNY 进 行 排序 ， 然后 按照 顺序 将 词 打印 出 来 。 下 面 的 最 后 一 段 代码 会 完 
成 这 部 分 工作 。 表 次 打开 bayes.py 文 件 ， 将 下 面 的 代码 添加 到 文件 中 。 


程序 清单 4-7 ”最 具 表征 性 的 词汇 显示 函数 


def getTopWords (ny, sf): 
import operator 
vocabList,pOV,plV=localWords (ny, sf) 
topNY=[]; topSsF=[] 
for i in range(len(POV) ) : 
if pOV[i] > -6.0 : topSF.append((vocabList [i],PoV[Ii])) 
if plV[i] > -6.0 : topNY.append((vocabList [i],p1V[i])) 
sortedSsF = sorted(topsF, key=lambda pair: pair[{1], reverse=True) 
print "SF**SF**SF**SF**SF*wSF**SF**SF**SFw*SF**SF**SF**SF*w*wSE** 上 
for item in sortedSF: ’ 
print item[0] 
sortedNY = sorted(topNY, key=lambda pair: pair[1l, reverse=True) 
print "NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY **n 
for item in sortedNY: 
print item[0] : 


程序 清单 4-7 中 的 函数 getTopworas () 使 用 两 个 RSS 源 作为 输入 ， 然 后 训练 并 测试 朴素 贝 叶 
斯 分 类 器 ， 返 回 使 用 的 概率 值 。 然 后 创建 两 个 列表 用 于 元 组 的 存储 。 与 之 前 返回 排名 最 高 的 X 个 
单词 不 同 ， 这 里 可 以 返回 大 于 某 个 阔 值 的 所 有 词 。 这 些 元 组 会 按照 它们 的 条 件 概率 进行 排序 。 

下 面 看 一 下 实际 的 运行 效果 ， 保 存 bayes.py 文 件 ， 在 Python 提示 符 下 输入 : 


>>> eload{(baves) 

<module 'bayes' from 'bayes.pyc'> 
>>> bayes.getTopWords (ny, sf) 

the error rate is: 0.2 
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最 后 输出 的 单词 很 有 意思 。 值 得 注意 的 现象 是 ,程序 输出 了 大 量 的 停 用 词 。 移 除 固定 的 停 用 
词 看 看 结果 会 如 何 变化 也 十 分 有 趣 。 依 我 的 经 验 来 看 ， 这 样 做 的 话 ， 分 类 错误 率 也 会 降低 。 


4.8 ”本章 小 结 


对 于 分 类 而 言 , 使 用 概率 有 时 要 比 使 用 硬 规 则 更 为 有 效 。 贝 叶 斯 概率 及 贝 叶 斯 准则 提供 了 一 
种 利用 已 知 值 来 估计 未 知 概 率 的 有 效 方 法 。 . 

可 以 通过 特征 之 间 的 条 件 独立 性 假设 , 降低 对 数据 量 的 需求 。 独 立 性 假设 是 指 一 个 词 的 出 现 
概率 并 不 依赖 于 文档 中 的 其 他 词 。 当 然 我 们 也 知道 这 个 假设 过 于 简单 。 这 就 是 之 所 以 称 为 朴素 由 
叶 斯 的 原因 。 尽 管 条 件 独立 性 假设 并 不 正确 ， 但 是 朴素 贝 叶 斯 仍然 是 一 种 有 效 的 分 类 器 。 

利用 现代 编程 语言 来 实现 朴素 贝 叶 斯 时 需要 考虑 很 多 实际 因素 。 下 溢出 就 是 其 中 一 个 问题 ， 
它 可 以 通过 对 概率 取 对 数 来 解决 。 词 袋 模 型 在 解决 文档 分 类 问题 上 比 词 集 模型 有 所 提高 。 还 有 其 
他 一 些 方面 的 改进 ， 比 如 说 移 除 停 用 词 ， 当 然 也 可 以 花 大 量 时 间 对 切 分 器 进行 优化 。 

本 章 学 习 到 的 概率 理论 将 在 后 续 章 节 中 用 到 , 另外 本 章 也 给 出 了 有 关 贝 叶 斯 概率 理论 全 面具 
体 的 介绍 。 接 下 来 的 一 章 将 暂时 不 再 讨论 概率 理论 这 一 话题 ， 介 绍 另 一 种 称 作 Logistic 回 归 的 分 
类 方法 及 一 些 优化 算法 。 
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Logistic 回 归 








本 章 内 容 

口 Sigmoid 函 数 和 Logistic 回 归 分 类 器 
口 最 优化 理论 初步 

口 梯度 下 降 最 优化 算法 

口 数据 中 的 缺失 项 处 理 


这 会 是 激动 人 心 的 一 章 ， 因 为 我 们 将 首次 接触 到 最 优化 算法 。 仔 细 想 想 就 会 发 现 ， 其 实 我 们 
日 常生 活 中 遇 到 过 很 多 最 优化 问题 ， 比 如 如 何在 最 短 时 间 内 从 A 点 到 达 B 点 ? 如 何 投入 最 少 工作 
量 却 获得 最 大 的 效益 ? 如 何 设计 发 动机 使 得 油耗 最 少 而 功率 最 大 ? 可 见 ， 最 优化 的 作用 十 分 强 
大 。 接 下 来 ， 我 们 介绍 几 个 最 优化 算法 ， 并 利用 它们 训练 出 一 个 非 线性 函数 用 于 分 类 。 

读者 不 熟悉 回归 也 没关系 ， 第 8 章 起 会 深入 介绍 这 一 主题 。 假 设 现在 有 一 些 数据 点 ， 我 们 用 
一 条 直线 对 这 些 点 进行 拟 合 ( 该 线 称 为 最 佳 拟 合 直线 )， 这 个 拟 合 过 程 就 称 作 回 归 。 利 用 Logistic 
回归 进行 分 类 的 主要 思想 是 ; 根据 现 有 数据 对 分 类 边界 线 建立 回归 公式 ， 以 此 进行 分 类 。 这 里 的 
“回归 ”一 词 源 于 最 佳 拟 合 ， 表 示 要 找到 最 佳 拟 合 参数 集 ， 其 背后 的 数学 分 析 将 在 下 一 部 分 介绍 
训练 分 类 器 时 的 做 法 就 是 寻找 最 佳 拟 合 参数 , 使 用 的 是 最 优化 算法 。 接 下 来 介绍 这 个 二 值 型 输出 
分 类 器 的 数学 原理 。 








.Logistic 回 归 的 一 般 过 程 EE 
(1) 收集 数据 : 采用 任意 方法 收集 数据 。 
(2) 准备 数据 : 由 于 需要 进行 距离 计算 ， 因此 妥 求 数 据 类 型 为 数值 型 。 另 外 ， 结构 化 数据 
格式 则 最 佳 。 
(3) 分 析 数 据 : 采用 任意 方法 对 数据 进行 分 析 。 
(4) 训练 算法 : 大 部 分 时 间 将 用 于 训练 ， 训练 的 目的 是 为 了 找到 最 佳 的 分 类 回归 系数 。 
(5) 测试 算法 :一旦 训练 步骤 完成 ， 分 类 将 会 很 快 。 
(6) 使 用 算法 : 首先 ， 我 们 需要 和 输入 一 些 数据 ， 并 将 其 转换 成 对 应 的 结构 化 数值 ; 
接着 ， 基 于 训练 好 的 回归 系数 就 可 以 对 这 些 数值 进行 简单 的 回归 计算 ， 判 定 它 们 属于 
哪个 类 别 ， 在 这 之 后 ， 我 们 就 可 以 在 输出 的 类 别 上 做 一 些 其 他 分 析 工 作 。 
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本 章 首先 阐述 Logistic 回 归 的 定义 ， 然 后 介绍 一 些 最 优化 算法 ， 其 中 包括 基本 的 梯度 上 升 法 
和 一 个 改进 的 随机 梯度 上 升 法 ， 这 些 最 优化 算法 将 用 于 分 类 器 的 训练 。 本 章 最 后 会 给 出 一 个 
Logistic 回 妇 的 实例 ， 预 测 一 匹 病 马 是 否 能 被 治愈 。 


5.1 基于 Logistic 回归 和 Sigmoid 函数 的 分 类 


Logistic 回 归 
优点 : 计算 代价 不 高 ， 易 于 理解 和 实现 。 
缺点 : 容易 欠 拟 合 ， 分 类 精度 可 能 不 高 。 
适用 数据 类 型 : 数值 型 和 标 称 型 数据 。 


我 们 想 要 的 函数 应 该 是 , 能 接受 所 有 的 输入 然后 预测 出 类 别 。 例 如 ， 在 两 个 类 的 情况 下 ,上 
述 函 数 输出 0 或 1。 或 许 你 之 前 接触 过 具有 这 种 性 质 的 函数 ， 该 函数 称 为 海 维 塞 德 阶 路 函数 
( Heaviside step function )， 或 者 直接 称 为 单位 阶 路 函数 。 然 而， 海 维 塞 德 阶 跃 函数 的 问题 在 于 ， 
该 函数 在 跳 取 点 上 从 0 瞬间 跳跃 到 1， 这 个 瞬间 跳 牙 过 程 有 时 很 难处 理 。 幸 好 ， 另 一 个 函数 也 有 类 
似 的 性 质 ?， 晶 数学 上 更 易 处 理 ， 这 就 是 Sigmoid 函 数 S。Sigmoid 浮 数 具 体 的 计算 公式 如 下 : 


0(z)= 





1 
| : l+e™ 
图 5-1 给 出 了 Sigmoid 函 数 在 不 同 坐标 尺度 下 的 两 条 曲线 图 。 当 xz 为 0 时 ，Sigmoid 函 数值 为 0.5。 
随 着 zx 的 增 大 ， 对 应 的 Sigmoid 值 将 逼近 于 1 而 随 着 x 的 减 小 ，Sigmoid 值 将 逼近 于 0。 如 果 横 坐标 
刻度 足够 大 (图 $-1 下 图 )，Sigmoid 函 数 看 起 来 很 像 一 个 阶 跃 函数 。 
因此 ， 为 了 实现 Logistic 回 归 分 类 器 ， 我 们 可 以 在 每 个 特征 上 都 乘 以 一 个 回归 系数 ， 然 后 把 
所 有 的 结果 值 相 加 ， 将 这 个 总 和 代入 Sigmoid 函 数 中 ， 进 而 得 到 -一 个 范围 在 0~1 之 间 的 数值 。 任 


. 何 大 于 0.5 的 数据 被 分 人 1 类 ， 小 于 0.5 即 被 归 和 人 0 类 。 所 以 ，Logistic 回 归 也 可 以 被 看 成 是 一 种 概 


率 估计 。 
确定 了 分 类 器 的 函数 形式 之 后 ， 现 在 的 问题 变 成 了 :最 佳 回归 系数 ?是 多 少 ? 如 何 确定 它们 
的 大 小 ? 这 些 问题 将 在 下 一 节 解答 。 





Q@ 这 里 指 的 是 可 以 输出 0 或 者 1 的 这 种 性 质 。 一 一 译 者 注 | 

@ Sigmoid 函 数 是 一 种 阶 跃 函数 ( step function )。 在 数学 中 ， 如 果实 数 域 上 的 某 个 函数 可 以 用 半 开 区 间 上 的 指示 函数 
的 有 限 次 线性 组 合 来 表示 ， 那 么 这 个 函数 就 是 阶 路 函数。 而 数学 中 指示 函数 indicator function ) 是 定义 在 某 集合 
X 上 的 函数 ， 表 示 其 中 有 哪些 元 素 属于 某 一 子 集 A。 一 _ 译 者 注 





@ 将 这 里 的 weight 翻译 为 “回归 系数 "， 是 为 了 与 后 面 的 局 部 加 权 线 性 回归 中 的 “权重 ”一 词 区 分 开 来 ， 在 不 会 引 
起 混淆 的 时 候 也 会 简称 为 “系数 "。 一 一 译 者 注 
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图 5-1 两 种 坐标 尺度 下 的 Sigmoid 函 数 图 。 上 图 的 横 坐 标 为 -5 到 5， 这 时 的 曲线 变化 较 
为 平滑 ; 下 图 横 坐 标的 尺度 足够 大 ， 可 以 看 到 ,在 x= 0 点 处 Sigmoid 函 数 看 起 来 
很 像 阶 跃 函数 


5.2 ”基于 最 优化 方法 的 最 佳 回归 系数 确定 
Sigmoid 函 数 的 输入 记 为 z， 由 下 面 公 式 得 出 ， 


2 三 WoX0 + WX 十 WX» 十 WX 
如 果 采 用 向 量 的 写法 ， 上 述 公 式 可 以 写成 z = wx， 它 表示 将 这 两 个 数值 向 量 对 应 元 素 相 乘 然 后 
全 部 加 起 来 即 得 到 z 值 。 其 中 的 向 量 x 是 分 类 器 的 输入 数据 ， 向 量 w 也 就 是 我 们 要 找到 的 最 佳 参数 
( 系数 ) 从 而 使 得 分 类 器 尽 可 能 地 精确 。 为 了 寻找 该 最 佳 参数 , 需要 用 到 最 优化 理论 的 一 些 知识 。 
下 面 首先 介绍 梯度 上 升 的 最 优化 方法 ， 我 们 将 学 习 到 如 何 使 用 该 方法 求 得 数据 集 的 最 佳 
参数 。 接 下 来 ， 展 示 如 何 绘制 梯度 上 升 法 产生 的 决策 边界 图 ， 该 图 能 将 梯度 上 升 法 的 分 类 效 
果 可 视 化 地 呈现 出 来 。 最 后 我 们 将 学 习 随机 梯度 上 升 算法 ， 以 及 如 何 对 其 进行 修改 以 获得 更 
好 的 结果 。 


5.2.1 梯度 上 升 法 


我 们 介绍 的 第 一 个 最 优化 算法 叫做 梯度 上 升 法 。 梯度 上 升 法 基于 的 思想 是 : 要 找到 某 函 数 的 
最 大 值 ， 最 好 的 方法 是 沿 着 该 函数 的 梯度 方向 探寻 。 如 果 梯 度 记 为 VY ， 则 函数 f(x,y) 的 梯度 由 
下 式 表 示 : 
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of (x,») 
Ox 
of (x,») 
Oy 
这 是 机 器 学 习 中 最 易 造 成 混淆 的 一 个 地 方 , 但 在 数学 上 并 不 难 , 需要 做 的 只 是 牢记 这 些 符号 


的 意义 。 这 个 梯度 意味 着 要 沿 x 的 方向 移动 也 Ce 妨 ， 淘 的 方向 移动 之 o 。 其 中 ， 函 数 /lx 人 
必须 要 在 待 计算 的 点 上 有 定义 并 且 可 微 。 一 个 具体 的 函数 例子 见 图 5-2。 


Vf(x,y) = 


梯度 上 升 


2.0 


1.5 


1.0 


0.5 


0.0 











~ TT TT 和 
-2.0 -1.5 -1.0 —0.5 0.0 0.5 1.0 1,5 2.0 
xX 


图 5-2 梯度 上 升 算法 到 达 每 个 点 后 都 会 重新 估计 移动 的 方向 。 从 PO 开始 ， 计 算 完 该 点 
的 梯度 ， 函 数 就 根据 梯度 移动 到 下 一 点 P1。 在 P1 点 ， 梯 度 再 次 被 重新 计算 ， 并 
沿 新 的 梯度 方向 移动 到 P2。 如 此 循环 迭代 , 直到 满足 停止 条 件 。 和 迭代 的 过 程 中 ， 
梯度 算 子 总 是 保证 我 们 能 选取 到 最 佳 的 移动 方向 


图 5-2 中 的 梯度 上 升 算法 沿 梯度 方向 移动 了 一 步 。 可 以 看 到 ， 梯 度 算 子 总 是 指向 函数 值 增长 
最 快 的 方向 。 这 里 所 说 的 是 移动 方向 ， 而 未 提 到 移动 量 的 大 小 。 该 量 值 称 为 步 长 ， 记 做 。 用 向 
量 来 表示 的 话 ， 梯 度 算法 的 迭代 公式 如 下 : 

w=wtoV,f(w) 

该 公式 将 一 直 被 迭代 执行 ,直至 达到 某 个 停止 条 件 为 止 , 比 如 迄 代 次 数 达 到 某 个 指定 值 或 算 

法 达到 某 个 可 以 允许 的 误差 范围 。 





ww aibbt.com 口 品 吕 



































5.2 基于 最 优化 方法 的 最 佳 回归 系数 确定 77 




















2 


， 只 是 公式 中 的 





你 最 经 常 听 到 的 应 该 是 梯度 下 降 算 法 , 它 与 这 里 的 梯度 上 升 算法 是 一 样 的 
加 法 需要 变 成 减法 。 因 此 ， 对 应 的 公式 可 以 写成 

WwW+aV 
梯度 上 升 算 法 用 来 求 函 数 的 最 大 值 ， 而 梯度 下 降 算法 用 来 求 函数 的 最 小 值 。 





基于 上 面 的 内 容 ， 我 们 来 看 一 个 Logistic 回 归 分 类 器 的 应 用 例子 ， 从 图 5-3 可 以 看 到 我 们 采用 
的 数据 集 。 


20 
Qe Class1l 








-354 -3 -2 -1 0 1 2 3 4 
Xl1 
图 5-3 一 个 简单 数据 集 ， 下 面 将 采用 梯度 上 升 法 找到 Logistic 回 归 分 类 器 在 此 数据 集 


上 的 最 佳 回 归 系 数 


5.2.2 ”训练 算法 使 用 梯度 上 升 找 到 最 佳 参 数 


图 5-3 中 有 100 个 样本 点 ， 每 个 点 包含 两 个 数值 型 特征 : X1 和 X2。 在 此 数据 集 上 ， 我 们 将 通 
过 使 用 梯度 上 升 法 找到 最 佳 回归 系数 ， 也 就 是 拟 合 出 Logistic 回 归 模 型 的 最 佳 参数 。 
梯度 上 升 法 的 伪 代 码 如 下 : 
每 个 回归 系数 初始 化 为 ] 
重复 R 次 : 
计算 整个 数据 集 的 梯度 
使 用 alpha x gradient 更 新 回归 系数 的 向 量 
返回 回归 系数 
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下 面 的 代码 是 梯度 上 升 算法 的 具体 实现 。 为 了 解 实际 效果 ,打开 文本 编辑 器 并 创建 一 个 名 为 
logRegres.py 的 文件 ， 输 入 下 列 代码 : 


程序 清单 5-1 ”Logistic 回归 梯度 上 升 优化 算法 
def loadDataSet () : 

dataMat = []; labelMat = {] 

fr = open('testSet .txt') 

for line in fr.readlines(): 
lineaArr = line.strip() .split () 
dataMat.append([1.0, float (lineArr{0]), float (lineArr[1])]) 
labelMat .append (int (lineArr[2])) 

return dataMat, labelMat 


def sigmoid (inx): 
return 1.0/(l+exp (-inx)) 


def gradAscent (dataMatIn, classLabels): 
dataMatrix = mat (dataMatIn) 转换 为 NumPy 和 矩阵 
labelMat = mat (dlassLabels) .transpose() 数据 类 型 
m,n = shape (dataMatrix) 
alpha = 0.001 
maxCycles = 500 
weights = ones{(n,1)) 


for k in range (maxCycles) : 和 矩阵 相 乘 
h = sigmoid(dataMatrix*weights) 
error = (labelMat - h) 
weights = weights + alpha * dataMatrix.transpose{()* error 


return weights 

程序 清单 5-1 的 代码 在 开头 提供 了 一 个 便利 函数 1oaapataset (), 它 的 主要 功能 是 打开 文本 
文件 cestset .Ext 并 逐 行 读 取 。 每 行 前 两 个 值 分 别 是 X1 和 X2, 第 三 个 值 是 数据 对 应 的 类 别 标签 。 
此 外 , 为 了 方便 计算 , 该 函数 还 将 X0 的 值 设 为 1.0。 接 下 来 的 函数 是 5.2 节 提 到 的 函数 sigmoia ()。 

梯度 上 升 算法 的 实际 工作 是 在 函数 gzxadascent () 里 完成 的 , 该 函数 有 两 个 参数 。 第 一 个 参 
数 是 dataMathIn， 它 是 一 个 2 维 NumPy 数 组 ， 每 列 分 别 代表 每 个 不 同 的 特征 ， 每 行 则 代表 每 个 
训练 样本 。 我 们 现在 采用 的 是 100 个 样本 的 简单 数据 集 ， 它 包含 了 两 个 特征 X1 和 X2， 再 加 上 第 0 
维特 征 X0， 所 以 dataMath1ln 里 存放 的 将 是 100x3 的 矩阵 。 在 处， 我 们 获得 输入 数据 并 将 它们 
转换 成 NumPy 和 矩阵 。 这 是 本 书 首次 使 用 NumPy 和 矩阵 ， 如 果 你 对 矩阵 数学 不 太 熟 悉 , 那么 一 些 运算 
可 能 就 会 不 易 理解 。 比 如 ，NumPy 对 2 维 数组 和 矩阵 都 提供 一 些 操作 支持 ， 如 果 混 淆 了 数据 类 型 
和 对 应 的 操作 ， 执 行 结果 将 与 预期 截然 不 同 。 对 此 ， 本 书 附录 A 给 出 了 对 NumpPy 和 矩阵 的 介绍 。 第 
二 个 参数 是 类 别 标签 ， 它 是 一 个 1x100 的 行 向 量 。 为 了 便于 和 矩阵 运算 ， 需 要 将 该 行 向 量 转换 为 列 
向 量 ， 做 法 是 将 原 向 量 转 置 ， 再 将 它 赋值 给 labslMat。 接 下 来 的 代码 是 得 到 矩阵 大 小 ， 再 设置 
一 些 梯度 上 升 算法 所 需 的 参数 。 

变量 ailpha 是 向 目标 移动 的 步 长 ， maxCycles 是 兴 代 次 数 。 在 for 循 环 迭 代 完 成 后 ， 将 返回 
训练 好 的 回归 系数 。 需 要 强调 的 是 ， 在 @@ 处 的 运算 是 矩阵 运算 。 变 量 h 不 是 一 个 数 而 是 一 个 列 向 
量 ， 列 向 量 的 元 素 个 数 等 于 样本 个 数 ， 这 里 是 100。 对 应 地 ， 运 算 dataMatrix * weights 代 表 
的 不 止 一 次 乘积 计算 , 事实 上 该 运算 包含 了 300 次 的 乘积 。 
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最 后 还 需 说 明 一 点 ， 你 可 能 对 @ 中 公式 的 前 两 行 觉得 陌生 。 此 处 略 去 了 一 个 简单 的 数学 推导 ， 
我 把 它 留 给 有 兴趣 的 读者 。 定 性 地 说 , 这 里 是 在 计算 真实 类 别 与 预测 类 别 的 差 值 ， 接 下 来 就 是 按 
照 该 差 值 的 方向 调整 回归 系数 。 

接 下 来 看 看 实际 效果 ， 打 开 文 本 编辑 器 ， 添 加 程序 清单 5-1 的 代码 。 

在 Python 提 示 符 下 ， 敲 入 下 面 的 代码 


>>> import logRegres 
>>> dataArr, labelMat=logRegres.1loadDataSet () 
>>> logRegres.gradAscent {dataArr, labelMat) 
matrix([[ 4.12414349] ， 

[ 0.48007329] ， 

[-0.6168482 ]]) 


5.2.3 ”分 析 数 据 :， 画 出 决策 边界 


上 面 已 经 解 出 了 一 组 回归 系数 , 它 确 定 了 不 同类 别 数据 之 间 的 分 隔 线 。 那 么 怎样 画 出 该 分 隔 线 ， 
从 而 使 得 优化 的 过 程 便于 理解 呢 ? 下 面 将 解决 这 个 问题 ， 打 开 logRegres .py 并 添加 如 下 代码 。 


程序 清单 5-2 ” 画 出 数据 集 和 Logistic 回 归 最 佳 拟 合 直 线 的 函数 
Qef plotBestFit (wei): | 
import matplotlib.pyplot as plt 
weights = wei.getA() | 
dataMat, labelMat=loadDataSet () 
dataArr = array (dataMat) | 
n = shape (dataArr) [0] : 
xcordl = []; ycordl = [] 
xcord2 = []; ycord2 = [] 
for i in zange (n) : 
if int(labelMat [il])== 1: E 
xcordl1 .append (dataArr [i,1]); ycordl.append (dataArr[i,2]) 
else: 
xcord2 .append (dataArr [i,1]}); ycord2.append (dataArrt{i,2]1) 
fig = plt.figure() 
ax = fig.add subplot (111) 
ax.scatter (xcord1, ycordl, s=30, c='red', marker='s') 
ax.scatter (xcord2, ycord2, s=30, c='green') 
x = arange(-3.0, 3.0, 0.1) 





y = (-weights [0] -weights [1] *x}) /weights [2] 

ax.plot (x, y) 0 最 佳 拟 合 直线 
plt.xlabel ('X1'); plt.ylabel ('x2'),，; 

plt. show() 


程序 清单 5-2 中 的 代码 是 直接 用 Matplotlib 画 出 来 的 。 唯 一 要 指出 的 是 ，@O 处 设置 了 sigmoia 
函数 为 0。 回 忆 5.2 节 ，0 是 两 个 分 类 (类别 1 和 类 别 0 ) 的 分 界 处 。 因 此 , 我 们 设 定 0 = woxo + wixi + 
wx2， 然 后 解 出 X2 和 X1 的 关系 式 ( 即 分 隔 线 的 方程 ， 注 意 X0 = 1 )。 

运行 程序 清单 5-2 的 代码 ， 在 Python 提示 符 下 输入 : 
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>>> from numpy import* 
>>> reload (logRegres) 
| <module 'logRegres' from 'logRegres.py'> 
>>> logRegres.plotBestrFit (weights.getRA()) 


输出 的 结果 如 图 5-4 所 示 。 
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图 $-4 ”梯度 上 升 算 法 在 500 次 迭代 后 得 到 的 Logistic 回 归 最 佳 拟 合 直 线 


这 个 分 类 结果 相当 不 错 , 从 图 上 看 只 错 分 了 两 到 四 个 点 。 但 是 , 尽管 例子 简单 且 数 据 集 很 小 ， 
这 个 方法 却 需要 大 量 的 计算 (300 次 乘法 )。 因 此 下 一 节 将 对 该 算法 稍 作 改 进 ， 从 而 使 它 可 以 用 在 
真实 数据 集 上 。 


5.2.4 ”训练 算法 随机 梯度 上 升 


梯度 上 升 算法 在 每 次 更 新 加 归 系 数 时 都 需要 遍历 整个 数据 集 ， 该 方法 在 处 理 100 个 左右 的 数 
据 集 时 尚 可 , 但 如 果 有 数 十 亿 样 本 和 成 于 上 万 的 特征 , 那么 该 方法 的 计算 复杂 度 就 太 高 了 。 一 种 
改进 方法 是 一 次 仅 用 一 个 样本 点 来 更 新 回归 系数 , 该 方法 称 为 随机 梯度 上 升 算 法 。 由 于 可 以 在 新 
样本 到 来 时 对 分 类 器 进行 增 量 式 更 新 ， 因 而 随机 梯度 上 升 算法 是 一 个 在 线 学 习 算法 。 与 “在 线 学 
习 ” 相 对 应 ， 一 次 处 理 所 有 数据 被 称 作 是 “ 批 处 理 ”。 
随机 梯度 上 升 算法 可 以 写成 如 下 的 伪 代码 
| 所 有 回归 系数 初始 化 为 1 
| : 对 数据 集中 每 个 样本 
| 计算 该 样本 的 梯度 

使 用 alpha x gradient 更 新 回归 系数 值 
返回 回归 系数 值 
以 下 是 随机 梯度 上 升 算法 的 实现 代码 。 
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程序 清单 5-3 ”随机 梯度 上 升 算法 a 


def stocGradAscent0 (dataMatrix, classLabels): 
mn = shape (dataMatrix) 
alpha = 0.01 
weights = ones (n) 
for i in range (m) : 
h = sigmoid{sum(dataMatrix{[i}*weights)) 





error = classLabels[i] - h 
weights = weights + alpha * error * dataMatrixt{i) 
return weights 


可 以 看 到 ,随机 梯度 上 升 算法 与 梯度 上 升 算 法 在 代码 上 很 相似 , 但 也 有 一 些 区 别 : 第 一 , 后 
者 的 变量 h 和 误差 error 都 是 向 量 ， 而 前 者 则 全 是 数值 ; 第 二 ， 前 者 没有 和 矩阵 的 转换 过 程 ， 所 有 
变量 的 数据 类 型 都 是 NumPy 数 组 。 

为 了 验证 该 方法 的 结果 ， 我 们 将 程序 清单 5-3 的 代码 添加 到 logRegres.py 中 ， 并 在 Python 提 示 
符 下 输入 如 下 命令 : 

>>> from numpy import* 

>>> reload (logRegres) 

<module 'logRegres' from 'lJogRegres.py'> 

>>> dataArr, labelMat=logRegres.loadDataSet {) | 

>>> weights=logRegres.stocGradAscent0 (array (dataArr) ,labelMat) | 

>>> logRegres.plotBestFit (weights) 1 


执行 完毕 后 将 得 到 图 5-5 所 示 的 最 佳 拟 合 直 线 图 ， 该 图 与 图 5-4 有 一 些 相 似 之 处 。 可 以 看 到 ， 拟 合 
出 来 的 直线 效果 还 不 错 ， 但 并 不 像 图 5-4 那 样 完美 。 这 里 的 分 类 器 错 分 了 三 分 之 一 的 样本 。 

直接 比较 程序 清单 5-3 和 程序 清单 5-1 的 代码 结果 是 不 公平 的 ， 后 者 的 结果 是 在 整个 数据 集 上 
迭代 了 500 次 才 得 到 的 。 一 个 判断 优化 算法 优 劣 的 可 靠 方 法 是 看 它 是 否 收 敛 ， 也 就 是 说 参数 是 否 
达到 了 稳定 值 ， 是 否 还 会 不 断 地 变化 ? 对 此 ， 我 们 在 程序 清单 -3 中 随机 梯度 上 升 算法 上 做 了 些 
修改 ,使 其 在 整个 数据 集 上 运行 200 次 。 最 终 绘 制 的 三 个 回归 系数 的 变化 情况 如 图 5-6 所 示 。 


20 
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图 5-5 ”随机 梯度 上 升 算法 在 上 述 数 据 集 上 的 执行 结果 ， 最 佳 拟 合 直线 并 非 最 佳 分 类 线 
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图 5-6 ”运行 随机 梯度 上 升 算法 ， 在 数据 集 的 一 次 遍历 中 回归 系数 与 迭代 次 数 的 关系 
图 。 回 归 系 数 经 过 大 量 氨 代 才 能 达到 稳定 值 ， 并 且 仍 然 有 局 部 的 波动 现象 


图 5-6 展 示 了 随机 梯度 上 升 算法 在 200 次 迭代 过 程 中 回归 系数 的 变化 情况 。 其 中 的 系数 2， 也 
就 是 图 5-5 中 的 X2 只 经 过 了 50 次 迭代 就 达到 了 稳定 值 ， 但 系数 1 和 0 则 需要 更 多 次 的 迭代 。 另 外 值 
得 注意 的 是 ， 在 大 的 波动 停止 后 ， 还 有 一 些小 的 周期 性 波动 。 不 难 理解 , 产生 这 种 现象 的 原因 是 
存在 一 些 不 能 正确 分 类 的 样本 点 (数据 集 并 非 线性 可 分 ), 在 每 次 迭代 时 会 引发 系数 的 剧烈 改变 。 
我 们 期 望 算法 能 避免 来 回 波动 ， 从 而 收敛 到 某 个 值 。 另 外 ， 收 敛 速度 也 需要 加 快 。 

对 于 图 5-6 存 在 的 问题 ， 可 以 通过 修改 程序 清单 5-3 的 随机 梯度 上 升 算法 来 解决 ， 具 体 代码 
如 下 。 


程序 清单 5-4 ”改进 的 随机 梯度 上 升 算法 


def stocGradAscentl (dataMatrix, classLabels, numIiter=150): 

m,n = shape (dataMatrix) 

weights = ones (n) 

for j in range {numIter): dataIndex = range (m) 

for i in range(m): alpha 每 次 迭代 

alpha = 4/(1.0+j+i)+0.01 时 需要 调整 
randIindex = int (random.uniform(0,1en(dataIndex))) 
h = sigmoid(sum(dataMatrix[randIindex] *+weights)) 
error = classLabels[randIindex] - h 
weights = weights + alpha * error * dataMatrix[randIndex] 
del {dataIndex [randIindex]) . 


return weights : 随机 选取 更 新 
程序 清单 5-4 与 程序 清单 5-3 类 似 , 但 增加 了 两 处 代码 来 进行 改进 。 
第 一 处 改进 在 @ 处 。 一 方面 ，alpha 在 每 次 迭代 的 时 候 都 会 调整 ， 这 会 缓解 图 5-6 上 的 数据 波 
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动 或 者 高 频 波动 。 另外, 虽然 alpha 会 随 着 迭代 次 数 不 断 减 小 , 但 永远 不 会 减 小 到 0, 这 是 因为 @ 中 
还 存在 一 个 常数 项 。 必 须 这样 做 的 原因 是 为 了 保证 在 多 次 迭代 之 后 新 数据 仍然 具有 一 定 的 影响 。 
如 果 要 处 理 的 问题 是 动态 变化 的 , 那么 可 以 适当 加 大 上 述 常数 项 , 来 确保 新 的 值 获得 更 大 的 回归 
系数 。 另 一 点 值得 注意 的 是 , 在 降低 alpha 的 函数 中 ,alpha 每 次 减少 1/ (j+i) ， 其 中 j 是 迭代 次 数 ， 
i 是 样本 点 的 下 标 ?。 这 样 当 j<<max (i) 时 ，alpha 就 不 是 严格 下 降 的 。 避 免 参 数 的 严格 下 降 也 常 
见于 模拟 退火 算法 等 其 他 优化 算法 中 。 

程序 清单 5-4 第 二 个 改进 的 地 方 在 @ 处 ， 这 里 通过 随机 选取 样本 来 更 新 回归 系数 。 这 种 方法 
将 减少 周期 性 的 波动 ( 如 图 5-6 中 的 波动 )。 具 体 实现 方法 与 第 3 章 类 似 ， 这 种 方法 每 次 随机 从 列 
表 中 选 出 一 个 值 ， 然 后 从 列表 中 圳 掉 该 值 (再 进行 下 一 次 大 代 )。 

此 外 ， 改 进 算法 还 增加 了 一 个 迭代 次 数 作为 第 3 个 参数 。 如 果 该 参数 没有 给 定 的 话 ， 算 法 将 
默认 迭代 150 次 。 如 果 给 定 ， 那 么 算法 将 按照 新 的 参数 值 进行 迭代 。 

与 stocGradAscent1() 类 似 , 图 5-7 显 示 了 每 次 迭代 时 各 个 回归 系数 的 变化 情况 。 
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图 5-7 使 用 样本 随机 选择 和 alpha 动 态 减少 机 制 的 随机 梯度 上 升 算 法 stocGradAscent1 () 
所 生成 的 系数 收敛 示意 图 o 该 方法 比 采 用 固定 alpha 的 方法 收敛 速度 更 快 


比较 图 5-7 和 图 5-6 可 以 看 到 两 点 不 同 。 第 一 点 是 ， 图 5-7 中 的 系数 没有 像 图 5-6 里 那样 出 现 周 
期 性 的 波动 ， 这 归功 于 stocGradascent1() 里 的 样本 随机 选择 机 制 ; 第 二 点 是 , 图 5-7 的 水 平 轴 








Q 要 注意 区 分 这 里 的 下 标 与 样本 编号 ,编号 表示 了 样本 在 矩阵 中 的 位 置 ( 代码 中 为 randIndex )， 而 这 里 的 下 标 束 示 
本 次 近代 中 第 个 选 出 来 的 样本 。 一 译 者 注 让 
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比 图 5-6 短 了 很 多 , 这 是 由 于 stocGradascent1 () 可 以 收 伍 得 更 快 。 这 次 我 们 仅仅 对 数据 集 做 了 
20 次 遍历 ， 而 之 前 的 方法 是 500 次 。 
| 下 面 看 看 在 同一 个 数据 集 上 的 分 类 效果 。 将 程序 清单 5-4 的 代码 添加 到 logRegres.py 文 件 中 ， 
| 并 在 Python 提 示 符 下 输入 : 
>>> reload (logRegres) 2 
<module 'logRegres' from 'logRegres.py'> 
| >>> dataArr,labelMat=logRegres.loadpataset () 


>>> weights=logRegres.stocGradAscent1 (array (dataArr) ,labelMat) 
>>> logRegres.plotBestrFit (weights) 


程序 运行 之 后 应 该 能 看 到 类 似 图 5-8 的 结果 图 。 该 分 隔 线 达到 了 与 GradientAscent () 差 不 
多 的 效果 ,但 是 所 使 用 的 计算 量 更 少 。 
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Xx1 
图 5-8 使 用 改进 的 随机 梯度 上 升 算法 得 到 的 系数 


默认 迭代 次 数 是 1530， 可 以 通过 stocGradaAscent () 的 第 3 个 参数 来 对 此 进行 修改 ， 例 如 : 
| >>> weights=logRegres.stocGradaAscent1l (array (dataArr),1labelMat, 500) 

目前 , 我 们 已 经 学 习 了 几 个 优化 算法 , 但 还 有 很 多 优化 算法 值得 探讨 ， 所幸 这 方面 已 有 大 量 
的 文献 可 供 参 考 。 另 外 再 说 明 一 下 ,针对 给 定 的 数据 集 , 读者 完全 可 以 对 算法 的 各 种 参数 进行 调 
整 ， 从 而 达到 更 好 的 效果 。 

迄今 为 止 我 们 分 析 了 回归 系数 的 变化 情况 , 但 还 没有 达到 本 章 的 最 终 目标 , 即 完 成 具体 的 分 
类 任务 。 下 一 节 将 使 用 随机 梯度 上 升 算法 来 解决 病 马 的 生死 预测 问题 。 
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5.3 示例 ， 从 疝气 病症 预测 病 马 的 死亡 率 


本 节 将 使 用 Logistic 回 归来 预测 患 有 疝 病 的 马 的 存活 问题 。 这 里 的 数据 ?包含 368 个 样本 和 28 
个 特征 。 我 并 非 育 马 专家 ， 从 一 些 文献 中 了 解 到 , 疝 病 是 描述 马 胃 肠 痛 的 术语 。 然 而 ,这 种 病 不 
一 定 源 自 马 的 胃 肠 问题 , 其 他 问题 也 可 能 引发 马 闸 病 。 该 数据 集中 包含 了 医院 检测 马 疝 病 的 一 些 
指标 ， 有 的 指标 比较 主观 ， 有 的 指标 难以 测量 ， 例 如 马 的 疼痛 级 别 。 









(1) 收集 数据 : 给 定数 据 文件 。 

(2) 准备 数据 ， 用 Python 解析 文本 文件 并 填充 缺失 值 。 

(3) 分 析 数 据 ， 可视化 并 观察 数据 。 

(4) 训练 算法 : 使 用 优化 算法 ， 找 到 最 佳 的 系数 。 

(5) 测试 算法 : 为 了 量化 回归 的 效果 ， 需 要 观察 错误 率 。 根 据 错 误 率 决定 是 否 回 退 到 训练 
阶段 ， 通 过 改变 适 代 的 次 数 和 步 长 等 参数 来 得 到 更 好 的 回归 系数 。 

(6) 使 用 算法 :实现 一 个 简单 的 命令 行程 序 来 收集 马 的 症状 并 输出 预测 结果 并 非 难事 ， 这 
可 以 做 为 留 给 读者 的 一 道 习 题 。 


另外 需要 说 明 的 是 , 除了 部 分 指标 主观 和 难以 测量 外 ,该 数据 还 存在 一 个 问题 ,数据 集中 有 


30% 的 值 是 缺失 的 。 下 面 将 首先 介绍 如 何 处 理 数 据 集中 的 数据 缺失 问题 , 然后 再 利用 Logistic 回 归 


和 随机 梯度 上 升 算法 来 预测 病 马 的 生死 。 


5.3.1 ”准备 数据 ， 处 理 数据 中 的 缺失 值 


数据 中 的 缺失 值 是 个 非常 棘手 的 问题 , 有 很 多 文献 都 致力 于 解决 这 个 问题 。 那么 , 数据 缺失 
究竟 带 来 了 什么 问题 ? 假设 有 100 个 样本 和 20 个 特征 ， 这 些 数据 都 是 机 器 收集 回来 的 。 若 机 器 上 
的 某 个 传感器 损坏 导致 一 个 特征 无 效 时 该 怎么 办 ?此 时 是 否 要 殷 掉 整个 数据 ? 这 种 情况 下 , 另外 
19 个 特征 怎么 办 ? 它们 是 否 还 可 用 ? 管 案 是 肯定 的 。 因为 有 时 候 数 据 相 当 昂 贵 , 扔 掉 和 重新 获取 
都 是 不 可 取 的 ， 所 以 必须 采用 一 些 方法 来 解决 这 个 问题 。 

下 面 给 出 了 一 些 可 选 的 做 法 : 

口 使 用 可 用 特征 的 均值 来 填补 缺失 值 ; 

口 使 用 特殊 值 来 填补 缺失 值 ， 如 -1; 

口 忽略 有 缺失 值 的 样本 ; 

口 使 用 相似 样本 的 均值 添补 缺失 值 ; 

口 使 用 另外 的 机 器 学 习 算法 预测 缺失 值 。 





@ 数据 集 来 自 2010 年 1 月 11 日 的 UCI 机 器 学 习 数据 库 〈 http://archive.ics.uci.edu/ml/datasets/Horse+Colic )。 该 数据 最 早 
由 加 拿 大 安大略 省 圭 尔 夫 大 学 计算 机 系 的 Mary McLeish 和 Matt Cecile 收 集 。 
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示例， 使 用 Loglstic 回 归 估计 马 钨 电 的 死亡 率 :1 二 | 
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现在 , 我 们 对 下 一 节 要 用 的 数据 集 进行 预 处 理 , 使 其 可 以 顺利 地 使 用 分 类 算法 。 在 预 处 理 阶 段 
需要 做 两 件 事 : 第 一 , 所 有 的 缺失 值 必须 用 一 个 实数 值 来 替换 ， 因 为 我 们 使 用 的 NumPy 数 据 类 型 不 
允许 包含 缺失 值 。 这 里 选择 实数 0 来 替换 所 有 缺失 值 ， 恰 好 能 适用 于 Logistic 回 归 。 这 样 做 的 直觉 在 
于 ,我 们 需要 的 是 一 个 在 更 新 时 不 会 影响 系数 的 值 。 回 归 系 数 的 更 新 公式 如 下 : 

weights = weights + alpha * error * dataMatrix[randIindex] 

如 果 dataMatrix 的 某 特征 对 应 值 为 9%， 那 么 该 特征 的 系数 将 不 做 更 新 ， 即 : 

weights = weights 

另外 ,由 于 sigmoida(0)=0.5， 即 它 对 结果 的 预测 不 具有 任何 倾向 性 ， 因 此 上 述 做 法 也 不 会 对 
误差 项 造成 任何 影响 。 基 于 上 述 原因 ， 将 缺失 值 用 0 代替 既 可 以 保留 现 有 数据 ， 也 不 需要 对 优化 算 
法 进行 修改 。 此 外 ， 该 数据 集中 的 特征 取 值 一 般 不 为 0， 因 此 在 某 种 意义 上 说 它 也 满足 “特殊 值 ” 
这 个 要 求 。 

预 处 理 中 做 的 第 二 件 事 是 ， 如 果 在 测试 数据 集中 发 现 了 一 条 数据 的 类 别 标签 已 经 缺失 ， 那 么 我 
们 的 简单 做 法 是 将 该 条 数据 丢弃 。 这 是 因为 类 别 标签 与 特征 不 同 ， 很 难 确定 采用 某 个 合适 的 值 来 蔡 
换 。 采 用 Logistic 回 归 进 行 分 类 时 这 种 做 法 是 合理 的 ， 而 如 果 采 用 类 似 kNN 的 方法 就 可 能 不 太 可 行 。 

原始 的 数据 集 经 过 预 处 理 之 后 保存 成 两 个 文件 : horseColicTest .txt 和 和 horseColic- 
Training.txt。 如 果 想 对 原始 数据 和 预 处 理 后 的 数据 做 个 比较 ， 可 以 在 http://archive.ics.uci 
edumlydatasets/Horse+Colic 浏 览 这 些 数 据 。 

现在 我 们 有 一 个 “干净 ”可 用 的 数据 集 和 一 个 不 错 的 优化 算法 , 下 面 将 把 这 些 部 分 融合 在 一 
起 训练 出 一 个 分 类 器 ， 然 后 利用 该 分 类 器 来 预测 病 马 的 生死 问题 。 


5.3.2 ”测试 算法 ， 用 Logistic 回归 进行 分 类 


本 章 前 面 几 节 介绍 了 优化 算法 ， 但 目前 为 止 还 没有 在 分 类 上 做 任何 实际 尝试 。 使 用 Logistic 
回归 方法 进行 分 类 并 不 需要 做 很 多 工作 , 所 需 做 的 只 是 把 测试 集 上 每 个 特征 向 量 乘 以 最 优化 方法 
得 来 的 回归 系数 ， 再 将 该 乘 积 结果 求 和 ， 最 后 输入 到 Sigmoid 函 数 中 即 可 。 如 果 对 应 的 Sigmoid 值 
大 于 0.5 就 预测 类 别 标 签 为 1 ， 和 否则 为 0。 

下 面 看 看 实际 运行 效果 ， 打 开 文 本 编辑 器 并 将 下 列 代码 添加 到 IogRegres.py 文 件 中 。 


程序 清单 5-5 ”Logistic 回 归 分 类 函数 
def classifyVector (inX, weights): 
prob = sigmoid(sum (inx*weights)) 
if prob > 0.5: return 1.0 
else: return 0.0 


def colicTest (): 
frTrain = open('horseColicTraining.txt') 
frTest = open(' horseCcolicTest .txt') 
trainingSet = []; trainingLabels = [] 
“ for line in frTrain.readlines (): 
currLine = line.strip() .split('\t') 
lineArr =[{] 
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for i in range(21): 
lineArr.append (float (currLine [i])) 
trainingSet .append (lineArr) 
trainingLabels.append (float (currLine [21])) 
trainWeights = stocGradAscentl (array (trainingSet), trainingLabels, 500) 
-errorCount = 0; numTestVec = 0.0 
for line in frTest.readliines (): 
numTestVec += 1.0 
currLine = line.strip() .split('\t') 
lineArr =[] 
for i in range (21): 
lineArr.append (float (currLine [i])) 
if int(classifyVector(array (lineArr), trainweights))!= 
int (currLine [21]): 
errorCount += 1 
errorRate = (float (errorCount)/numTestVec) 
print "the error rate of this test is: %f" 多 errorRate 
return errorRate 


def multiTest () : 
numTests = 10; errorSum=0.0 
for k in range (numTests): 
errorSum += colicTest () 
print "after %d iterations the average error rate is: 
gf" SG (numTests, errorSum/float (numTests)) 


程序 清单 5-5 的 第 一 个 函数 是 classifyvector () ， 它 以 回归 系数 和 特征 向 量 作为 输入 来 计 
算 对 应 的 Sigmoid 值 。 如 果 Sigmoid 值 大 于 0.5 函 数 返 回 !， 否 则 返回 0。 

接 下 来 的 函数 是 colicTest () ， 是 用 于 打开 测试 集 和 训练 集 ， 并 对 数据 进行 格式 化 处 理 的 
函数 。 该 函数 首先 导入 训练 集 ， 同 前 面 一 样 ， 数 据 的 最 后 一 列 仍然 是 类 别 标签 。 数 据 最 初 有 三 个 
类 别 标签 ， 分 别 代 表 马 的 三 种 情况 :“ 仍 存活 ”"”、“ 已 经 死亡 ”和 “已 经 安乐 死 "。 这 里 为 了 方便 ， 
将 “已 经 死亡 ”和 “已 经 安乐 死 ” 合 并 成 “未 能 存活 ”这 个 标签 。 数 据 导 入 之 后 ， 便 可 以 使 用 
函数 stocGradascentl () 来 计算 回归 系数 向 量 。 这 里 可 以 自由 设 定 迷 代 的 次 数 ， 例 如 在 训练 集 
上 使 用 500 次 迭代 ,实验 结果 表明 这 比 默认 迁 代 150 次 的 效果 更 好 。 在 系数 计算 完成 之 后 ,导入 测 
试 集 并 计算 分 类 错误 率 。 整 体 看 来 ，colicTest () 具 有 完全 独立 的 功能 ， 多 次 运行 得 到 的 结果 
可 能 稍 有 不 同 ， 这 是 因为 其 中 有 随机 的 成 分 在 里 面 。 如 果 在 stocGradAscent1 () 函数 中 回归 系 
数 已 经 完全 收敛 ， 那 么 结果 才 将 是 确定 的 。 

最 后 一 个 函数 是 multiTest () ， 其 功能 是 调用 函数 colicTest () 10 次 并 求 结果 的 平均 值 。 
下 面 看 一 下 实际 的 运行 效果 ， 在 Python 提示 符 下 输入 ， 

>>> reload (logRegres) 

<module 'logRegres' from 'logRegres.py'> 

>>> logRegres .multiTest () 

the error rate of this test is: 0.358209 


the error rate of this test is: 0.432836 
the error rate of this test is: 0.373134 
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the error rate of this test is: 0.298507 
the error rate of this test is: 0.313433 
after 10 iterations the average error rate is: 0.353731 


从 上 面 的 结果 可 以 看 到 ，10 次 迭代 之 后 的 平均 错误 率 为 35%。 事 实 上 ， 这 个 结果 并 不 差 ， 因 
为 有 30% 的 数据 人 缺失。 当然， 如 果 调 整 colicmest () 中 的 途 代 次 数 和 stochGradascent1() 中 
的 步 长 ， 平 均 错 误 率 可 以 降 到 20% 左 右 。 第 7 章 中 我 们 还 会 再 次 使 用 到 这 个 数据 集 。 


5.4 本章 小 结 


Logistic 回 归 的 目的 是 寻找 一 个 非 线性 函数 Sigmoid 的 最 佳 拟 合 参数 ， 求 解 过 程 可 以 由 最 优化 
算法 来 完成 。 在 最 优化 算法 中 ,最 常用 的 就 是 梯度 上 升 算法 ,而 梯度 上 升 算法 又 可 以 简化 为 随机 
梯度 上 升 算法 。 

随机 梯度 上 升 算法 与 梯度 上 升 算法 的 效果 相当 , 但 占用 更 少 的 计算 资源 。 此 外 ， 随 机 梯度 上 
升 是 一 个 在 线 算法 , 它 可 以 在 新 数据 到 来 时 就 完成 参数 更 新 , 而 不 需要 重新 读 取 整个 数据 集 来 进 
行 批 处 理 运 算 。 

机 器 学 习 的 一 个 重要 问题 就 是 如 何 处 理 缺 失 数据 。 这 个 问题 没有 标准 答案 ,取决 于 实际 应 用 
中 的 需求 。 现 有 一 些 解 决 方案 ， 每 种 方案 都 各 有 优 缺 点 。 

下 一 章 将 介绍 与 Logistic 回 归 类 似 的 另 一 种 分 类 算法 ， 支持 向 量 机 ， 它 被 认为 是 目前 最 好 的 
现成 的 算法 之 一 。 
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本 章 内 容 

口 简单 介绍 支持 向 量 机 

口 利用 SMO 进 行 优化 

口 利用 核 函 数 对 数据 进行 空间 转换 
O 将 SVM 和 其 他 分 类 器 进行 对 比 . 


“由 于 理解 支持 向 量 机 (Support Vector Machines，SVM ) 需要 掌握 一 些 理论 知识 ， 而 这 对 于 
读者 来 说 有 一 定 难 度 ， 于 是 建议 读者 直接 下 载 LIBSVM 使 用 。” 我 发 现 ， 在 介绍 SVM 时 ， 不 止 一 
本 书 都 采用 了 以 上 这 种 模式 。 本 书 并 不 打算 沿用 这 种 模式 。 我 认为 ,如果 对 SVM 的 理论 不 甚 了 解 
就 去 阅读 其 产品 级 C++ 代码 ， 那 么 读 懂 的 难度 很 大 。 但 如 果 将 产品 级 代码 和 速度 提升 部 分 剥离 出 
去 ,那么 代码 就 会 变 得 可 控 ， 或 许 这 样 的 代码 就 可 以 读 甸 了 。 

有 些 人 认为 ，SVM 是 最 好 的 现成 的 分 类 器 ,这 里 说 的 “现成 ” 指 的 是 分 类 器 不 加 修改 即 可 直 
接 使 用 。 同 时 ， 这 就 意味 着 在 数据 上 应 用 基本 形式 的 SVM 分 类 器 就 可 以 得 到 低 错 误 率 的 结果 。 
SVM 能 够 对 训练 集 之 外 的 数据 点 做 出 很 好 的 分 类 决策 。 

本 章 首先 讲述 SVM 的 基本 概念 ， 书 中 会 引入 一 些 关 键 术语 。SVM 有 很 多 实现 ， 但 是 本 章 只 
关注 其 中 最 流行 的 一 种 实现 ， 即 序列 最 小 优化 ( Sequential Minimal Optimization，SMO ) 算法 。 
在 此 之 后 ， 将 介绍 如 何 使 用 一 种 称 为 核 函 数 (kernel ) 的 方式 将 SVM 扩展 到 更 多 数据 集 上 。 最 后 
会 回顾 第 1 章 中 手写 识别 的 例子 ， 并 考察 其 能 否 通过 SVM 来 提高 识别 的 效果 。 


6.1 基于 最 大 间隔 分 隔 数据 





优点 : 泛 化 错误 率 低 ， 计 算 开销 不 大 ， 结 果 易 解释 。 
缺点 : 对 参数 调节 和 核 函 数 的 选择 敏感 ， 原 始 分 类 器 不 加 修改 仅 适用 于 处 理 二 类 问题 。 
适用 数据 类 型 ， 数值 型 和 标 称 型 数据 。 


Q 一 种 求解 支持 向 量 机 二 次 规划 的 算法 。 一 一 译 者 注 
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在 介绍 SVM 这 个 主题 之 前 ， 先 解释 几 个 概念 。 考 虑 图 6-1 中 A-D 共 4 个 方 框 中 的 数据 点 分 布 ， 
一 个 问题 就 是 ， 能 否 画 出 一 条 直线 将 圆 形 点 和 方形 点 分 开 呢 ? 先 考虑 图 6-2 方 框 A 中 的 两 组 数据 ， 
它们 之 间 已 经 分 隔 得 足够 开 , 因此 很 容易 就 可 以 在 图 中 画 出 一 条 直线 将 两 组 数据 点 分 开 。 在 这 种 
情况 下 ,这 组 数据 被 称 为 线性 可 分 ( linearly separable ) 数据 。 读 者 先 不 必 担 心 上 述 假设 是 否 过 于 
| 完美 ， 稍 后 当 直 线 不 能 将 数据 点 分 开 时 ， 我 们 会 对 上 述 假设 做 一 些 修改 。 

















上 述 将 数据 集 分 隔 开 来 的 直线 称 为 分 隔 超 平面 (separating hyperplane )。 在 上 面 给 出 的 例子 

中 ， 由 于 数据 点 都 在 二 维 平面 上 ， 所 以 此 时 分 隔 超 平面 就 只 是 一 条 直线 。 但 是 ， 如 果 所 给 的 数据 
集 是 三 维 的 ， 那 么 此 时 用 来 分 隔 数据 的 就 是 一 个 平面 。 显 而 易 见 ， 更 高 维 的 情况 可 以 依 此 类 推 。 

如 果 数 据 集 是 1024 维 的 , 那么 就 需要 一 个 1023 维 的 某 某 对 象 来 对 数据 进行 分 隔 。 这 个 1023 维 的 某 

某 对 象 到 底 应 该 叫 什么 ?N-1 维 呢 ? 该 对 象 被 称 为 超 平 面 (hyperplane ), 也 就 是 分 类 的 决策 边界 。 

分 布 在 超 平面 一 侧 的 所 有 数据 都 属于 某 个 类 别 ， 而 分 布 在 另 一 侧 的 所 有 数据 则 属于 另 一 个 类 别 。 

我 们 希望 能 采用 这 种 方式 来 构建 分 类 器 , 即 如 果 数 据点 离 决 策 边 界 越 远 , 那么 其 最 后 的 预测 
| 结果 也 就 越 可 信 。 考 虑 图 6-2 框 B 到 框 D 中 的 三 条 直线 ， 它 们 都 能 将 数据 分 隔 开 ， 但 是 其 中 哪 一 条 
最 好 呢 ? 是否 应 该 最 小 化 数据 点 到 分 隔 超 平面 的 平均 距离 ”来 求 最 佳 直线 如 果 是 那样 , 图 6-2 的 B 
和 C 框 中 的 直线 是 否 真 的 就 比 D 框 中 的 直线 好 呢 ? 如果 这 样 做 ， 是 不 是 有 点 寻找 最 佳 拟 合 直 线 的 
感觉 ? 是 的 ， 上述 做 法 确实 有 点 像 直线 拟 合 ,但 这 并 非 最 佳 方案 。 我 们 希望 找到 离 分 隔 超 平面 最 
近 的 点 ,确保 它们 离 分 隔 面 的 距离 尽 可 能 远 。 这 里 点 到 分 隔 面 的 距离 被 称 为 间隔 ?( margin )。 我 
们 希望 间隔 尽 可 能 地 大 , 这 是 因为 如 果 我 们 犯错 或 者 在 有 限 数据 上 训练 分 类 器 的 话 , 我 们 希望 分 





Q@ 本 书 中 有 两 个 间隔 的 概念 : 一 个 是 点 到 分 隔 面 的 距离 ， 称 为 点 相对 于 分 闯 面 的 间隔 ; 另 一 个 是 数据 集中 所 有 点 到 
分 隔 面 的 最 小 间隔 的 2 倍 ， 称 为 分 类 器 或 数据 集 的 间隔 。 一 般 论 文书 籍 中 所 提 到 的 “间隔 ”多 指 后 者 。SVM 分 类 
器 是 要 找 最 大 的 数据 集 间隔 。 书 中 没有 特意 区 分 上 述 两 个 概念 ， 请 根据 上 下 文理 解 。 一 一 译 者 注 
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类 器 尽 可 能 健壮 。 
支持 向 量 ( support.vector ) 就 是 离 分 隔 超 平 面 最 近 的 那些 点 。 接 下 来 要 试 着 最 大 化 支持 向 量 
到 分 隔 面 的 距离 ， 需 要 找到 此 问题 的 优化 求解 方法 。 
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图 6-2 A 框 中 给 出 了 一 个 线性 可 分 的 数据 集 ，B、C、DD 框 中 各 自给 出 了 一 条 可 以 将 两 
类 数据 分 开 的 直线 


6.2 寻找 最 大 间隔 


如 何 求解 数据 集 的 最 佳 分 隔 直线 ” 先 来 看 看 图 6-3。 分 隔 超 平面 的 形式 可 以 写成 wx+b。 要 计 
算 点 A 到 分 隔 超 平面 的 距离 ， 就 必须 给 出 点 到 分 隔 面 的 法 线 或 重 线 的 长 度 ， 该 值 为 
ea, /||w||。 这 里 的 常数 b 类 似 于 Logistic 回 归 中 的 规 距 w 。 这 里 的 向 量 w 和 常数 b 一 起 描述 了 


给 数据 的 分 隔 线 或 超 平面 。 接 下 来 我 们 讨论 分 类 器 。 
EE 











图 6-3 ”点 A 到 分 隔 平 面 的 距离 就 是 该 点 到 分 隔 面 的 法 线 长 度 
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6.2.1 分 类 器 求解 的 优化 问题 


前 面 已 经 提 到 了 分 类 器 , 但 还 没有 介绍 它 的 工作 原理 。 理 解 其 工作 原理 将 有 助 于 理解 基于 优 
化 问题 的 分 类 器 求解 过 程 。 输 入 数据 给 分 类 器 会 输出 一 个 类 别 标签 , 这 相当 于 一 个 类 似 于 Sigmoid 
的 函数 在 作用 。 下 面 将 使 用 类 似 海 维 赛 德 阶 路 函数 〈 即 单位 阶 跃 函数 ) 的 函数 对 wix+b 作 用 得 到 
f (wx+b) ， 其 中 当 u<0 时 ftu) 输 出 -1， 反 之 则 输出 +1。 这 和 前 一 章 的 Logistic 回 归 有 所 不 同 ， 那里 
的 类 别 标签 是 0 或 1。 

这 里 的 类 别 标签 为 什么 采用 -1 和 +1， 而 不 是 0 和 1 呢 ? 这 是 由 于 -1 和 +1 仅 仅 相差 一 个 符号 ， 
方便 数学 上 的 处 理 。 我 们 可 以 通过 一 个 统一 公式 来 表示 间隔 或 者 数据 点 到 分 隔 超 平面 的 距离 ， 同 
时 不 必 担 心 数据 到 底 是 属于 -1 还 是 +1 类 。 

当 计 算数 据点 到 分 隔 面 的 距离 并 确定 分 隔 面 的 放置 位 置 时 ， 间 隔 通 过 label * (wxz+b)o 来 
计算 ,这 时 就 能 体现 出 -1 和 +1 类 的 好 处 了 。 如 果 数 据点 处 于 正方 向 ( 即 +1 类 ) 并 且 离 分 隔 超 平 
面 很 远 的 位 置 时 ，w'x+b 会 是 一 个 很 大 的 正 数 ， 同 时 label* (wix+b) 也 会 是 一 个 很 大 的 正 数 。 而 
如 果 数 据点 处 于 负 方 向 ( -1 类 ) 并 且 离 分 凯 超 平面 很 远 的 位 置 时 ， 此 时 由 于 类 别 标 签 为 -1， 则 
label * (wix+b) 仍 然 是 一 个 很 大 的 正 数 。 

现在 的 目标 就 是 找 出 分 类 器 定义 中 的 w 和 b。 为 此 , 我 们 必须 找到 具有 最 小 间隔 的 数据 点 , 而 
这 些 数据 点 也 就 是 前 面 提 到 的 支持 向 量 。 一旦 找到 具有 最 小 间隔 的 数据 点 , 我 们 就 需要 对 该 间隔 
最 大 化 。 这 就 可 以 写作 : 











arg max | mna ‘(wi x+0)): 区 剖 


直接 求解 上 述 问题 相当 困难 , 所 以 我 们 将 它 转换 成 为 另 一 种 更 容易 求解 的 形式 。 首 先 考 察 一 下 
上 式 中 大 括号 内 的 部 分 。 由 于 对 乘积 进行 优化 是 一 件 很 讨厌 的 事情 , 因此 我 们 要 做 的 是 固定 其 中 一 
个 因子 而 最 大 化 其 他 因子 。 如 果 令 所 有 支持 向 量 的 label* (wz+b) 都 为 1 ， 那 么 就 可 以 通过 求 
1 1w| | 的 最 大 值 来 得 到 最 终 解 。 但是, 并 非 所 有 数据 点 的 label* (wix+b) 都 等 于 1， 只 有 那些 离 分 
隔 超 平面 最 近 的 点 得 到 的 值 才 为 1。 而 离 超 平面 越 远 的 数据 点 ， 其 label* (wz+b) 的 信也 就 越 大 。 

在 上 述 优 化 问题 中 , 给 定 了 一 些 约束 条 件 然后 求 最 优 值 ， 因此 该 问题 是 一 个 带 约束 条 件 的 优 
化 问题 。 这 里 的 约束 条 件 就 是 Label* (wx+b) 宇 1.0。 对 于 这 类 优化 问题 ， 有 一 个 非常 著名 的 求 
解 方法 ， 即 拉 格 朗 日 乘 子 法 。 通 过 引入 拉 格 朗 日 乘 子 ,我 们 就 可 以 基于 约束 条 件 来 表述 原来 的 问 
题 。 由 于 这 里 的 约束 条 件 都 是 基于 数据 点 的 , 因此 我 们 就 可 以 将 超 平面 写成 数据 点 的 形式 。 于 是 ， 
优化 目标 函数 最 后 可 以 写成 : 


max bE > label® label .a,.a, (a ,XO ) 2 
ly; i=] i j=! 











lw mh 
@ 尖 括 号 表示 xz 和 xz) 两 个 向 量 的 内 积 。 一 一 译 者 注 
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其 约束 条 件 为 
a>0, 和 Yo label® =0 
i-! 


至 此 , 一 切 都 很 完美 ,但 是 这 里 有 个 假设 : 数据 必须 100% 线 性 可 分 。 目 前 为 止 ， 我们 知道 
几乎 所 有 数据 都 不 那么 “干净 ”"。 这 时 我 们 就 可 以 通过 引入 所 谓 松弛 变量 ( slack variable )， 来 允 
许 有 些 数据 点 可 以 处 于 分 隔 面 的 错误 一 侧 。 这 样 我们 的 优化 目标 就 能 保持 仍然 不 变 , 但 是 此 时 新 
的 约束 条 件 则 变 为 ， 


C>a>0, 和 》 0 .label® = 
当 


这 里 的 常数 c 用 于 控制 “最 大 化 间隔 ”和 “保证 大 部 分 点 的 函数 间隔 小 于 1.0” 这 两 个 目标 的 
权重 。 在 优化 算法 的 实现 代码 中 ， 常 数 c 是 一 个 参数 ， 因 此 我 们 就 可 以 通过 调节 该 参数 得 到 不 同 
的 结果 。 一 旦 求 出 了 所 有 的 alpha， 那么 分 隔 超 平面 就 可 以 通过 这 些 alpha 来 表达 。 这 一 结论 十 分 
直接 ，SVM 中 的 主要 工作 就 是 求解 这 些 alpha。 

要 理解 刚才 给 出 的 这 些 公式 还 需要 大 量 的 知识 。 如 果 你 有 兴趣 , 我 强烈 建议 去 查阅 相关 的 教 
材 "&， 以 获得 上 述 公 式 的 推导 细节 。 


6.2.2 ”SVM 应 用 的 一 般 框架 


在 第 1 章 中 ， 我 们 定义 了 构建 机 器 学 习 应 用 的 一 般 步 又， 但 是 这 些 步 又 会 随机 器 学 习 任务 或 
算法 的 不 同 而 有 所 改变 ， 因 此 有 必要 在 此 探讨 如 何在 本 章 中 实现 它们 。 


”SVM 的 一 般 流程 “ a 





ri 


0 

(2) 准备 数据 : 需要 数值 型 数据 。 

(3) 分 析 数 据 : 有 助 于 可 视 化 分 隔 超 平面 。 

(4) 训练 算法 : SVM 的 大 部 分 时 间 都 源 自 训练 ， 该 过 程 主要 实现 两 个 参数 的 调 优 。 

(5) 测试 算法 : 十 分 简单 的 计算 过 程 就 可 以 实现 。 

(6) 使 用 算法 : 几乎 所 有 分 类 问题 都 可 以 使 用 SVM， 值 得 一 提 的 是 ，SVM 本 身 是 一 个 二 类 
分 类 器 ， 对 多 类 问题 应 用 SVM 需要 对 代码 做 一 些 修改 。 


到 目前 为 止 , 我 们 已 经 了 解 了 一 些 理论 知识 ,我 们 当然 希望 能 够 通过 编程 ， 在 数据 集 上 将 这 
些 理论 付 诸 实践 。 下 一 节 将 介绍 一 个 简单 但 很 强大 的 实现 算法 。 


@ Christopher M. Bishop, Pattern Recognition and Machine Learning (Springer 2006). 
@ Bernhard Schlkopf and Alexander J. Smola, Learning with Kernels. Support Vector Machines, Regularization, Optimization, 
and Beyond (MIT Press, 2001). 
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6.3 SMO 高 效 优化 算法 


接 下 来 , 我 们 根据 6.2.1 节 中 的 最 后 两 个 式 子 进行 优化 ,其 中 一 个 是 最 小 化 的 自 标 函 数 , 一 个 
是 在 优化 过 程 中 必须 遵循 的 约束 条 件 。 不 久之 前 ， 人 们 还 在 使 用 二 次 规划 求解 工具 ( quadratic 
solver ) 来 求解 上 述 最 优化 问题 ， 这 种 工具 是 一 种 用 于 在 线性 约束 下 优化 具有 多 个 变量 的 二 次 目 
标 函 数 的 软件 。 而 这 些 二 次 规划 求解 工具 则 需要 强大 的 计算 能 力 支撑 , 另外 在 实现 上 也 十 分 复杂 。 
所 有 需要 做 的 围绕 优化 的 事情 就 是 训练 分 类 器 , 一 旦 得 到 alpha 的 最 优 值 , 我 们 就 得 到 了 分 隔 超 平 
面 (2 维 平面 中 就 是 直线 ) 并 能 够 将 之 用 于 数据 分 类 。 | 

下 面 我 们 就 开始 讨论 SMO 算 法 , 然后 给 出 一 个 简化 的 版 本 , 以 便 读者 能 够 正确 理解 它 的 工作 
流程 。 后 一 节 将 会 给 出 SMO 算 法 的 完整 版 ， 它 比 简 化 版 的 运行 速度 要 快 很 多 。 





6.3.1 Platt 的 SMO 算法 


1996 年 ，John Platt 发 布 了 一 个 称 为 SMO®? 的 强大 算法 ， 用 于 训练 SVM。SMO 表 示 序 列 最 小 优 
化 (Sequential Minimal Optimization )。Platt 的 SMO 算 法 是 将 大 优化 问题 分 解 为 多 个 小 优化 问题 来 
求解 的 。 这 些小 优化 问题 往往 很 容易 求解 , 并且 对 它们 进行 顺序 求解 的 结果 与 将 它们 作为 整体 来 
求解 的 结果 是 完全 一 致 的 。 在 结果 完全 相同 的 同时 ，SMO 算 法 的 求解 时 间 短 很 多 。 

SMO 算 法 的 目标 是 求 出 一 系列 alpha 和 和 b， 一旦 求 出 了 这 些 alpha， 就 很 容易 计算 出 权重 向 量 w 
并 得 到 分 隔 超 平面 。 

SMO 算 法 的 工作 原理 是 : 每 次 循环 中 选择 两 个 alpha 进 行 优化 处 理 。 一 旦 找到 一 对 合适 的 
alpha， 那 么 就 增 大 其 中 一 个 同时 减 小 另 一 个 。 这 里 所 谓 的 “合适 ”就 是 指 两 个 alpha 必 须要 符合 
一 定 的 条 件 , 条 件 之 一 就 是 这 两 个 alpha 必 须要 在 间隔 边界 之 外 , 而 其 第 二 个 条 件 则 是 这 两 个 alpha 
还 没有 进行 过 区 间 化 处 理 或 者 不 在 边界 上 。 


6.3.2 ”应 用 简化 版 SMO 算法 处 理 小 规模 数据 集 


Platt SMO 算 法 的 完整 实现 需要 大 量 代 码 。 在 接 下 来 的 第 一 个 例子 中 ， 我 们 将 会 对 算法 进行 
简化 处 理 ， 以 便 了 解 算法 的 基本 工作 思路 ， 之 后 再 基于 简化 版 给 出 完整 版 。 简 化 版 代码 虽然 量 少 
但 执行 速度 慢 。Platt SMO 算 法 中 的 外 循环 确定 要 优化 的 最 佳 alpha 对 。 而 简化 版 却 会 跑 过 这 一 部 
分 ， 首 先 在 数据 集 上 遍历 每 一 个 alpha， 然 后 在 剩 下 的 alpha 集 合 中 随机 选择 另 一 个 alpha， 从 而 构 
建 alpha 对 。 这 里 有 一 点 相当 重要 ， 就 是 我 们 要 同时 改变 两 个 alpha。 之 所 以 这 样 做 是 因为 我 们 有 
一 个 约束 条 件 : 


D0 -label® =0 


由 于 改变 一 个 alpha 可 能 会 导致 该 约束 条 件 失效 ， 因 此 我 们 总 是 同时 改变 两 个 alpha。 





QD John C,Platt “Using Analytic QP and Sparseness to Speed Training of Support Vector Machines” in Advances in Neural 
Information Processing Systems 11, M. S. Keams, S.A,. Solla, D. A. Cohn, eds(MIT Press, 1999), 557--63. 
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为 此 , 我 们 将 构建 一 个 辅助 函数 ， 用 于 在 某 个 区 间 范 围 内 随机 选择 一 个 整数 。 同 时 , 我 们 也 
需要 另 一 个 辅助 函数 ,用 于 在 数值 太 大 时 对 其 进行 调整 。 下 面 的 程序 清单 给 出 了 这 两 个 函数 的 实 
现 。 读 者 可 以 打开 一 个 文本 编辑 器 将 这 些 代码 加 入 到 svmMLiA .py 文件 中 。 


程序 清单 6-1 SMO 算 法 中 的 辅助 函数 
def loadDataSset (fileName): 

dataMat = []; labelMat = [] 

fr = open (fileName) 

for line in fr.readlines(): 
lineArr = line.strip() .split('\t') 
dataMat ,append{ [float (lineArr[0]}), float (lineArr[1])]) 
JabelMat .append (float (lineArr[2])) 

return dataMat, labelMat 


def selectyrand (i,m): 
j=i 
while (j==i): 


j = int (random.uniform(0,m)) 
return J | 6 
def clipAlpha (aj,H,L): 


if aj > H: 





return aj 


在 testSet.txt 文 件 中 保存 了 图 6-3 所 给 出 的 数据 。 接 下 来 ， 我 们 就 将 在 这 个 文件 上 应 y 用 SMO 算 
法 。 程 序 清单 6-1 中 的 第 一 个 函数 就 是 我 们 所 熟知 的 loaaDatset () 函数 ， 该 函数 打开 文件 并 对 
其 进行 逐 行 解析 ， 从 而 得 到 每 行 的 类 标签 和 整个 数据 矩阵 。 

下 一 个 函数 selectJrand () 有 两 个 参数 值 ， 其 中 i 是 第 一 个 alpha 的 下 标 , m 是 所 有 alpha 的 数 
目 。 只 要 也 数值 不 等 于 输入 值 i ， 函 数 就 会 进行 随机 选择 。 

最 后 一 个 辅助 函数 就 是 clipalpha() ， 它 是 用 于 调整 大 于 H 或 小 于 的 alpha 值 。 尽 管 上 述 3 
个 辅助 函数 本 身 做 的 事情 不 多 ， 但 在 分 类 器 中 却 很 有 用 处 。 

在 输入 并 保存 程序 清单 6-1 中 的 代码 之 后 ， 运 行 如 下 命令 : 

>>> import svmMLiA 


>>> dataArr, labelArr = svmMLiA.loadDataSet ('testSet .txt') 
>>> labelArr 


[-1.0, -1.0, 1.0, -1.0, 1.0, 1.0, 1.0, -1.0, -1.0, -1.0, -1.0, -1.0, -1.0, 
LQ 


可 以 看 得 出 来 ， 这 里 采用 的 类 别 标 签 是 -1 和 1， 而 不 是 0 和 1。 
上 述 工作 完成 之 后 ， 就 可 以 使 用 SMO 算 法 的 第 一 个 版 本 了 。 
该 SMO 孔 数 的 伪 代 码 大 致 如 下 : 


创建 一 个 alpha 向 量 并 将 其 初始 化 为 0 向 量 
当 达 代 次 数 小 于 最 大 克 代 次 数 时 〔 外 循环 ) 
对 数据 集中 的 每 个 数据 向 量 ( 内 循环 ): 
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如 果 该 数据 向 量 可 以 被 优化 : 
随机 选择 另外 一 个 数据 向 量 
同时 优化 这 两 个 向 量 
如 果 两 个 向 量 都 不 能 被 优化 ， 退 出 内 循环 


如 果 所 有 向 量 都 没 被 优化 ， 增 加 迭代 数目 ， 继 续 下 一 次 循环 
程序 清单 6-2 中 的 代码 是 SMO 算 法 的 一 个 有 效 版 本 。 在 Python 中 ， 如 果 某 行 以 \ 符 号 结束 , 那 
么 就 意味 着 该 行 语句 没有 结束 并 会 在 下 一 行 延续 。 下 面 的 代码 当中 有 很 多 很 长 的 语句 必须 要 分 成 
多 行 来 写 。 因 此 , 下面 的 程序 中 使 用 了 多 个 \ 符 号 。 打 开 文件 svmMLiA.py 之 后 输入 如 下 程序 清单 


中 的 代码 。 


程序 清单 6-2 简化 版 SMO 算 法 


def smoSimple(dataMatIn, classLabels, C, toler, maxIter): 
dataMatrix = mat (dataMatIn); 1abelMat = mat (classLabels) .transpose() 


b = 


0; mn = shape(dataMatrix) 


alphas = mat (zeros( {(m,1))) 
iter = 0 
while (iter < maxIter): 


alphapairsChanged = 0 如 果 alpha 可 以 更 
for i in zange (m) : 改进 入 优化 过 程 
fXi = float (multiply(alphas,1abelMat) .T*\ . 
(dataMatrix*dataMatrix[i,:] .T)) + b 
Ei = fXi - float (labelMat [i]) 
if ((labelMat [i]*Ei < -toler) and (alphas[i] < C)) or \ 
{{(labelMat {i]*Ei > toler) and \ 
(alphas [i} > 0)) : 
j = selectJrand(i,m) 
fxj = float (multiply (alphas,1labelMat) .T*\ 
(dataMatrix*dataMatrix[j,:] .T)) + b 


Ej = fxj - float (labelMat [j]) 随机 选择 第 二 
alphaIold = alphas [i] .copy (); 个 alpha 
alphayJold = alphas[j] .copy() ; 
if (labelMat [il != labelMat[j]): 

0 ] 保证 alpha 在 0 


L = max(0, alphas[j] - alphas [i]) 


H = min(C，C + alphas[j] - alphas [i]) 与 C 之 间 


else: 
L = max(0, alphas{j} + alphas[i] - C) 
H = min(C, alphas[j] + alphas[i]) 

if L==H: print '"L==H"; continue 


eta = 2.0 * dataMatrix[i, :]*dataMatrix[j,:].T -\ 
dataMatrix[i,:]*dataMatrix[i,:] .T - \ 
dataMatrix[j,:]*dataMatrix[j,:].T 

if eta >= 0: print "eta>=0"; continue 


对 六 进行 修改 , 修 


alphas [j] -= labelMat[j]*(Ei - Ej)/eta 改 量 与 了 相同 ， 但 
alphas[j] = clipAlpha(alphas[j],H,L) 方向 相反 
if (abs (alphas [j] - alphaJold) < 0.00001): print \ 
"j not moving enough'"; continue 
alphas [i] += labelMat [ij]*labelMat [i]*\ 
(alphaJold - alphas[j]) 
bl = b - Ei- labelMat [i]*(alphas[i] -alphaIold)*\ 
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dataMatrix[i,:]*dataMatrix[i,:] .T - \ 
labelMat [jl}* (alphas [j] -alphaJold)*\ 
， dataMatrix[i,:]*dataMatrix[j,:}.T 
b2 = b - Ej- labelMat {i]* (alphas [i] -alpharold)*\ 


dataMatrix[i,:]*dataMatrix[j,:] .T - \ 、 
labelMat [j]* (alphas [j] -alphadJold) x\ 设置 常数 项 
dataMatrix{j),:}*dataMatrix{j,:] .了 


if (0 < alphas{i]) and (C > alphas[i]): b = bl 
elif (0 < alphas[j]) and (C > alphas[j}): b = b2 
else: b = (bl + b2)/2.0 
alphaPairsChanged += 1 
print "iter: %d i:%d, pairs changed %d" % \ 
{iter,i,aiphapairsChanged) 

if (alphapPairsChanged == 0): iter += 1 

else: iter = 0 

print "iteration number: %d’" $ iter 

return b,alphas 


这 个 函数 比较 大 ， 或 许 是 我 所 知道 的 本 书 中 最 大 的 一 个 函数 。 该 函数 有 5 个 输入 参数 ， 分 别 
是 : 数据 集 、 类 别 标 签 、 常 数 c、 容 错 率 和 取消 前 最 大 的 循环 次 数 。 在 本 书 ， 我 们 构建 函数 时 采 
用 了 通用 的 接口 ， 这样 就 可 以 对 算法 和 数据 源 进 行 组 合 或 配对 处 理 。 上 述 函 数 将 多 个 列表 和 输入 
参数 转换 成 NumPy 和 矩阵 ,这样 就 可 以 简化 很 多 数学 处 理 操作 。 由 于 转 置 了 类 别 标 签 ， 因 此 我 们 得 
到 的 就 是 一 个 列 向 量 而 不 是 列表 。 于 是 类 别 标签 向 量 的 每 行 元 素 都 和 数据 矩阵 中 的 行 一 一 对 应 。 
我 们 也 可 以 通过 和 矩阵 aataMatIn 的 shape 属 性 得 到 常数 m 和 n。 最 后 ， 我 们 就 可 以 构建 一 个 alpha 列 
和 矩阵， 矩阵 中 元 素 都 初始 化 为 0， 并 建立 一 个 iter 变 量 。 该 变量 存储 的 则 是 在 没有 任何 alpha 改 变 
的 情况 下 遍历 数据 集 的 次 数 。 当 该 变量 达到 输入 值 maxTter 时 ， 函 数 结束 运行 并 退出 。 

每 次 循环 当中 ， 将 alphaPairschanged 先 设 为 0， 然 后 再 对 整个 集合 顺序 遍历 。 变 量 
alphaPairsChanged 用 于 记录 alpha 是 否 已 经 进行 优化 。 当 然 ， 在 循环 结束 时 就 会 得 知 这 一 点 。 
首先 ，fxi 能 够 计算 出 来 ， 这 就 是 我 们 预测 的 类 别 。 然 后 ， 基 于 这 个 实例 的 预测 结果 和 真实 结果 
的 比 对 ， 就 可 以 计算 误差 Bi。 如 果 误 差 很 大 ， 那 么 可 以 对 该 数据 实例 所 对 应 的 alpha 值 进行 优化 。 
对 该 条 件 的 测试 处 于 上 述 程 序 清单 的 @ 处 。 在 if 语 句 中 ， 不 管 是 正 间 隔 还 是 负 间 隔 都 会 被 测试 。 
并 且 在 该 if 语 句 中 , 也 要 同时 检查 alpha 值 ， 以 保证 其 不 能 等 于 0 或 C。 由 于 后 面 alpha 小 于 0 或 大 于 
C 时 将 被 调整 为 0 或 C,， 所 以 一 旦 在 该 if 语句 中 它们 等 于 这 两 个 值 的 话 ， 那 么 它们 就 已 经 在 “边界 ” 
上 上 了， 因而 不 再 能 够 减 小 或 增 大 ， 因 此 也 就 不 值得 再 对 它们 进行 优化 了 。 

接 下 来 ， 可 以 利用 程序 清单 6-1 中 的 辅助 函数 来 随机 选择 第 二 个 alpha 值 ， 即 alpharj] @。 
同样 ， 可 以 采用 第 一 个 alpha 值 (alpha[i] ) 的 误差 计算 方法 ,来 计算 这 个 alpha 值 的 误差 。 这 个 
过 程 可 以 通过 copy () 的 方法 来 实现 ,因此 稍 后 可 以 将 新 的 alpha 值 与 老 的 alpha 值 进行 比较 .Python 
则 会 通过 引用 的 方式 传递 所 有 列表 ， 所 以 必须 明确 地 告知 Python 要 为 alphaTolda 和 alphaJold 
分 配 新 的 内 存 ; 否则 的 话 ， 在 对 新 值 和 旧 值 进行 比较 时 ， 我 们 就 看 不 到 新 旧 值 的 变化 。 之 后 我 们 
开始 计算 L 和 H@@， 它 们 用 于 将 alpha [j] 调 整 到 0 到 c 之 间 。 如 果 L 和 H 相 等 ， 就 不 做 任何 改变 ， 直 
接 执行 continue 语 句 。 这 在 Python 中 ， 则 意味 着 本 次 循环 结束 直接 运行 下 一 次 for 的 循环 。 

Eta 是 alpha [j] 的 最 优 修改 量 ， 在 那个 很 长 的 计算 代码 行 中 得 到 。 如 果 eta 为 0， 那 就 是 说 
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需要 退出 for 循 环 的 当前 迭代 过 程 。 该 过 程 对 真实 SMO 算 法 进行 了 简化 处 理 。 如 果 eta 为 0, 那么 
计算 新 的 alpha[j] 就 比较 麻烦 了 ， 这 里 我 们 就 不 对 此 进行 详细 的 介绍 了 。 有 需要 的 读者 可 以 阅 
读 Platt 的 原文 来 了 解 更 多 的 细节 。 现 实 中 ,这 种 情况 并 不 常 发 生 ， 因 此 忽略 这 一 部 分 通常 也 无 伤 
大 雅 。 于 是 , 可 以 计算 出 一 个 新 的 alpha[j1, 然后 利用 程序 清单 6-1 中 的 辅助 函数 以 及 L 与 H 值 对 
其 进行 调整 。 

然后 ， 就 是 需要 检查 alpha[j] 是 否 有 轻微 改变 。 如 果 是 的 话 ， 就 退出 for 循 环 。 然 后 ， 
alpha[i] 和 alpha[j1 同 样 进行 改变 , 虽然 改变 的 大 小 一 样 , 但 是 改变 的 方向 正好 相反 ( 即 如 果 
一 个 增加 ,那么 另外 一 个 减少 ) @。 在 对 alpha[i] 和 alpha[j] 进 行 优化 之 后 ,给 这 两 个 alpha 
值 设置 一 个 常数 项 b@。 

最 后 ， 在 优化 过 程 结 束 的 同时 ， 必 须 确保 在 合适 的 时 机 结束 循环 。 如 果 程 序 执行 到 for 循 环 
的 最 后 一 行 都 不 执行 continue 语 句 ， 那 么 就 已 经 成 功 地 改变 了 一 对 alpha， 同 时 可 以 增加 
alphaPairsChanged 的 值 。 在 tor 循环 之 外 ， 需 要 检查 alpha 值 是 否 做 了 更 新 ， 如 果 有 更 新 则 将 
itezr 设 为 0 后 继续 运行 程序 。 只 有 在 所 有 数据 集 上 所 历 maxTter 次 ， 且 不 再 发 生 任 何 alpha 修 改 之 
后 ， 程 序 才 会 停止 并 退出 whi1le 循 环 。 

为 了 解 实 际 效果 ， 可 以 运行 如 下 命令 : 

>>> b,alphas = svmMLiA.smoSimple (dataArr, labelArr, 0.6, 0.001, 40) 


运行 后 输出 类 似 如 下 结果 : 


iteration number: 29 

j not moving enough 

iteration number: 30 

iter: 30 i:17, pairs changed 1 
j not moving enough 

iteration number: 0 

j not moving enough 

iteration number: 1 


上 述 运行 过 程 需 要 几 分 钟 才 会 收 僵 。 一 旦 运行 结束 ， 我 们 可 以 对 结果 进行 观察 : 


>>> b 
matrix([[-3.84064413] ]) 


我 们 可 以 直接 观察 aftpha 和 矩阵 本 身 ， 但 是 其 中 的 零 元 素 太 多 。 为 了 观察 大 于 0 的 元 素 的 数量 ， 可 以 
输入 如 下 命令 : 


>>> aliphas [alphas>0] 
matrix{({[[ 0.12735413, 0.24154794, 0.36890208]]) 


由 于 SMO 算 法 的 随机 性 ， 读 者 运行 后 所 得 到 的 结果 可 能 会 与 上 述 结果 不 同 。 
alphas [alphas>0] 命 令 是 数组 过 滤 (array filtering ) 的 一 个 实例 , 而 且 它 只 对 NumPy 类 型 有 用 ， 
却 并 不 适用 于 Python 中 的 正则 表 (regularlist )。 如 果 输 入 alpha>0， 那么 就 会 得 到 一 个 布尔 数组 ， 
并 且 在 不 等 式 成 立 的 情况 下 ， 其 对 应 值 为 正确 的 。 于 是 ， 让 人 全 要 得 由 用 更 属 的 的 二 了 当下 
时 ， 就 会 得 到 一 个 NumPy 和 矩阵 ， 并 且 其 中 矩阵 仅仅 包含 大 于 0 的 值 。 

为 了 得 到 支持 向 量 的 个 数 ， 输 入 : 
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>>> shape (alphas [alphas>0]) 


为 了 解 鄂 些 数据 点 是 支持 向 量 ， 输 入 : 


>>> for i in range{100): 
if alphas [il]>0.0: print dataArr[il],1labelArr[i] 


得 到 的 结 吉 果 类 似 如 下 : 


[4.6581910000000004, 3.507396] -1.0 
[3.4570959999999999,， -0.082215999999999997] -1.0 
[6.0805730000000002, 0.41888599999999998] 1.0 


本 圈 之 后 的 结果 如 图 6-4 所 示 。 
用 网 圈 标 记 的 支持 向 量 


“6 
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图 6-4 示例 数据 集 上 运行 简化 版 SMO 算 法 后 得 到 的 结果 ， 包 括 面 图 的 支持 向 量 与 分 隔 超 平面 


利用 前 面 的 设置 ,我 运行 了 10 次 程序 并 取 其 平均 时 间 。 这 个 过 程 在 一 台 性 能 较 差 的 
笔记 本 上 需要 14.5 秒 。 虽 然 结果 看 起 来 并 不 是 太 差 ， 但 是 别 忘 了 这 只 是 一 个 仅 有 100 个 点 的 小 规 
模 数 据 集 而 已 ,在 更 大 的 数据 集 上 , 收敛 时 间 会 变 得 更 长 。 2 ,我 们 将 通过 构建 完整 SMO 
算法 来 加 快 其 运行 速度 。 


6.4 利用 完整 Platt SMO 算法 加 速 优化 


在 几 百 个 点 组 成 的 小 规模 数据 集 上 , 简化 版 SMO 算 法 的 运行 是 没有 什么 问题 的 , 但 是 在 更 大 
的 数据 集 上 的 运行 速度 就 会 变 慢 。 刚 才 已 经 讨论 了 简化 版 SMO 算 法 ， 下 面 我 们 就 讨论 完整 版 的 
Platt SMO 算 法 。 在 这 两 个 版 本 中 ， 实 现 alpha 的 更 改 和 代数 运算 的 优化 环节 一 模 一 样 。 在 优化 过 
程 中 ， 唯 一 的 不 同 就 是 选择 alpha 的 方式 。 完 整 版 的 Platt SMO 算 法 应 用 了 一 些 能 够 提速 的 启发 方 
法 。 或 许 读者 已 经 意识 到 ， 上 一 节 的 例子 在 执行 时 存在 一 定 的 时 间 提 升 空间 。 

Platt SMO 算 法 是 通过 一 个 外 循环 来 选择 第 一 个 alpha 值 的 ， 并 且 其 选择 过 程 会 在 两 种 方式 之 
间 进 行 交 替 : 一 种 方式 是 在 所 有 数据 集 上 进行 单 遍 扫 描 , 另 一 种 方式 则 是 在 非 边界 alpha 中 实现 单 
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饥 扫描 。 而 所 谓 非 边界 alpha 指 的 就 是 那些 不 等 于 边界 0 或 C 的 alpha 值 。 对 整个 数据 集 的 扫描 相当 
容易 ， 而 实现 非 边界 alpha 值 的 扫描 时 ， 首 先 需要 建立 这 些 alpha 值 的 列表 ， 然 后 再 对 这 个 表 进 行 
遍历 。 同 时 ， 该 步骤 会 跳 过 那些 已 知 的 不 会 改变 的 alpha 值 。 

| 在 选择 第 一 个 alpha 值 后 ,算法 会 通过 一 个 内 循环 来 选择 第 二 个 alpha 值 。 在 优化 过 程 中 ， 会 
通过 最 大 化 步 长 的 方式 来 获得 第 二 个 alpha 值 。 在 简化 版 SMO 算 法 中 , 我 们 会 在 选择 j 之 后 计算 错 
误 率 gj。 但 在 这 里 ， 我 们 会 建立 一 个 全 局 的 缓存 用 于 保存 误差 值 ， 并 从 中 选择 使 得 步 长 或 者 说 

Ei-Ej 最 大 的 alpha 值 。 

' 在 讲述 改进 后 的 代码 之 前 ， 我 们 必须 要 对 上 节 的 代码 进行 清理 。 下 面 的 程序 清单 中 包含 1 个 
用 于 清理 代码 的 数据 结构 和 3 个 用 于 对 进行 缓存 的 辅助 函数 。 我 们 可 以 打开 一 个 文本 编辑 器 , 输 
入 如 下 代码 。 


程序 清单 6-3 ”完整 版 Platt SMO 的 支持 函数 


class optStruct: 
def init (self,dataMatIr, classLabels, C, toler): 

self.X = dataMatIn 
self.labelMat = classLabels 
self.C=C 
self.tol = toler 
self.m = shape(dataMatIn) [0] 
self.alphas = mat (zeros((self.m,1))) 


self.b = 0 9 误差 缓存 
self.eCache = mat (zeros((self.m,2))) 


def calcEk (oS8, Kk): 
fxk = float (multiply (oS.alphas,oS.labelMat) .T*\ 
(OS.X*OS.X[k,:] .T)) + oS.b 
Ek = fXk - float(oS.labelMat [k]) 








return Ek 芭 
.9 内 循环 中 的 启发 式 方法 
def selectJ(i, oS, Ei): 
maxKk = -1; maxDeltaE = 0; Ej = 0 


oS.eCache[i] = {1,Bi] 
validEcacheList = nonzerol(oS.eCache[:,0] .A) {0] 
if (len(validEcacheList)) > 1: 
for k in validEcacheList: 
if k == i: continue 
Ek = calcEk (oS, Kk) 
deltaE = abs (Ei - Ek) 


if (deltaE > maxDeltaE): 选择 具有 最 大 
maxK = k; maxDeltaE = deltaE; Ej = Ek 步 长 的 ] 
return maxK, Ej 
else: 
j = selectJrand(i, oS.m) 


Ej = calcEk (oS, j) 
return j], Ej 


def updateEk (oS, k): 
Ek = calcEk (oS, Kk) 
oS.eCache[k] = [1,EKk] 
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首要 的 事情 就 是 建立 一 个 数据 结构 来 保存 所 有 的 重要 值 , 而 这 个 过 程 可 以 通过 一 个 对 象 来 完 
成 。 这 里 使 用 对 象 的 目的 并 不 是 为 了 面向 对 象 的 编程 ， 而 只 是 作为 一 个 数据 结构 来 使 用 对 象 。 在 
将 值 传 给 函数 时 , 我 们 可 以 通过 将 所 有 数据 移 到 一 个 结构 中 来 实现 , 这 样 就 可 以 省 掉 手 工 输入 的 
麻烦 了 。 而 此 时 ,数据 就 可 以 通过 一 个 对 象 来 进行 传递 。 实际 上 ， 当 完成 其 实现 时 ， 可 以 很 容易 
”通过 Python 的 字典 来 完成 。 但 是 在 访问 对 象 成 员 变 量 时 ， 这 样 做 会 有 更 多 的 手工 输入 操作 ， 对 比 
一 下 myobject .X 和 myobject['x'] 就 可 以 知道 这 一 点 。 为 达到 这 个 目的 , 需要 构建 一 个 仅 包含 
init 方 法 的 optstruct 类 。 该 方法 可 以 实现 其 成 员 变量 的 填充 。 除 了 增加 了 一 个 mx2 的 矩阵 成 
员 变 量 ecache 之 外 全 ， 这 些 做 法 和 简化 版 ?MO 一 模 一 样 。ecache 的 第 一 列 给 出 的 是 ecache 是 
否 有 效 的 标志 位 ， 而 第 二 列 给 出 的 是 实际 的 E 值 。 

对 于 给 定 的 alpha 值 ,第 一 个 辅助 函数 calcEk () 能 够 计算 E 值 并 返回 。 以 前 ， 该 过 程 是 采用 内 概 
的 方式 来 完成 的 , 但 是 由 于 该 过 程 在 这 个 版 本 的 SMO 算 法 中 出 现 频 繁 , 这 里 必须 要 将 其 单独 擒 出 来 。 

下 一 个 函数 selectoJ() 用 于 选择 第 二 个 alpha 或 者 说 内 循环 的 alpha 值 @。 回 想 一 下 ， 这 里 的 
目标 是 选择 合适 的 第 二 个 alpha 值 以 保证 在 每 次 优化 中 采用 最 大 步 长 。 该 函数 的 误差 值 与 第 一 个 
alpha 值 Bi 和 下 标 i 有关 。 首 先 将 输入 值 Ei 在 缓存 中 设置 成 为 肥效 的 。 这 里 的 有 效 ( valid ) 意味 着 
它 已 经 计算 好 了 。 在 ecaohe 中 ,代码 nonzero (oS .eCache[ :,0] .A)[0] 构 建 出 了 一 个 非 零 表 。 
NumPy 函 数 nonzero () 返 回 了 一 个 列表 ， 而 这 个 列表 中 包含 以 输入 列表 为 目录 的 列表 值 ， 当 然 
读者 可 以 猜 得 到 ， 这 里 的 值 并 非 零 。nonzero () 语 句 返回 的 是 非 零 E 值 所 对 应 的 alpha 值 ， 而 不 是 
B 值 本 身 。 程 序 会 在 所 有 的 值 上 进行 循环 并 选择 其 中 使 得 改变 最 大 的 那个 值 介 。 如 果 这 是 第 一 次 
循环 的 话 , 那么 就 随机 选择 一 个 alpha 值 。 当 然 , 也 存在 有 许多 更 复杂 的 方式 来 处 理 第 一 次 循环 的 
情况 ， 而 上 述 做 法 就 能 够 满足 我 们 的 目的 。 

程序 清单 6-3 的 最 后 一 个 辅助 函数 是 updateEk () ， 它 会 计算 误差 值 并 存 人 缓存 当中 。 在 对 
alpha 值 进行 优化 之 后 会 用 到 这 个 值 。 

程序 清单 6-3 中 的 代码 本 身 的 作用 并 不 大 ， 但 是 当 和 优化 过 程 及 外 循环 组 合 在 一 起 时 ， 就 能 
组 成 强大 的 SMO 算 法 。 

接 下 来 将 简单 介绍 一 下 用 于 寻找 决策 边界 的 优化 例 程 。 打 开 文 本 编辑 器 ,添加 下 列 清单 中 的 
代码 。 在 前 面 ， 读 者 已 经 看 到 过 下 列 代 码 的 另外 一 种 形式 。 


程序 清单 6-4 ”完整 Platt SMO 算 法 中 的 优化 例 程 
def innerL(i, os): om | 
Ei = calcEk (oS, i) 


if ((oS.labelMat[i]*Ei < -oS.tol) and (oS.alphas[i] < oS8.C)) or\ 
((oS.labelMat [i]*Ei > oS.tol) and {oS.alphas [il > 0)): 
j,Ej = selectJ (i, oS8, Ei) 
alphaIold = oS.alphas[i] .copy()}; alphaJold = oS.alphas[j] .copy(); 
if (oS.labelMat [il] != oS.labelMat[j]): 
L = max(0, oS.alphas{[j} - oS.alphas[i]) 
H = min(oS.C, oS8.C + oS.alphas[j] - oS.alphas [i]) 
else: 
L = max(0, oS.alphas[j] + os.alphas[i] - oS.cC) 
H = min(oS.C, oS.alphas[j] + OoS .alphas [i]) 
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if L==H: Print "L==H"; return 0 

eta = 2.0 * OS.X[i,:]*oS.X[j,:] .T - oS.X[i,:]*oS.X[i,:] .T - \ 
OS.X[j,:]*oS.X{[j,:] .T 

if eta >= 0: print “eta>=0"; return 0 


oS.alphas[j] -= oS.labelMat [j]*(Ei - Ej)/eta ee 
oS.alphas{j] = clipAlpha (oS.alphas[j],H,L) .9 更 新 误差 缓存 
updateEk (oS, j) 


if (abs(oS.alphas[j] - alphaJold) < 0.00001) : 
print "j not moving enough"; return 0 

oS.alphas [i] += oS.labelMat [j]*oS.labelMat [i]*\ 

(alphaJold - oS.alphas[j1) 时 更 新 误差 缓存 

updateEk (oS, i) 

bl = oS.b - Ei- oS.labelMat [i]*(o0S.alphas [i] -alphalold)*\ 
OS.X[i,:]*oS.X[i,:] .T - oS.labelMat [j]*\ 
(oS.alphas{j] -alphaJold) *oS .xX{i,:]*oS.X[j,:]}.T 

b2 = oS.b - Ej- oS.labelMat [i]*(oS.alphas[{[i]-alphalold)*\ 
OS.X[i,:]*oS.X[j,.:] .T - oS.labelMat [j]*\ 
(oS.alphas[j]-alphaJold) *oS.X[j,:]*oS.X[j,:] .T 

if (0 < oS.alphas[i]) and {oS.C > oS.alphas[i}): oS.b = bl 

elif (0 < oS.alphas[j]) and {oS.C > oS.alphas{j]): oS.b = b2 

else: oS.b = (bl + b2)/2.0 


return 1 
else: return 0 


程序 清单 6-4 中 的 代码 几乎 和 程序 清单 6-2 中 给 出 的 smoSimple() 函数 一 模 一 样 , 但 是 这 里 的 
代码 已 经 使 用 了 自己 的 数据 结构 。 该 结构 在 参数 os 中 传递 。 第 二 个 重要 的 修改 就 是 使 用 程序 清单 
6-3 中 的 SelectJ () 而 不 是 selectJrand () 来 选择 第 二 个 alpha 的 值 @。 最 后 ， 在 alpha 值 改变 时 
更 新 Ecache@@。 程序 清单 6-5 将 给 出 把 上 述 过 程 打包 在 一 起 的 代码 片段 。 这 就 是 选择 第 一 个 alpha 
值 的 外 循环 。 打 开 文 本 编辑 器 将 下 列 代码 加 入 到 svmMLiA.py 文 件 中 。 


程序 清单 6-5 ”完整 版 Platt SMO 的 外 循环 代码 


def smoP (dataMatIin, classLabels, C, toler, maxIter, kTup=('lin', 0)): 
coS = optSstruct (mat (dataMatIn) ,mat (classLabels) .transpose(),C,toler) 
iter = 0 
entireSet = True; alphapairsChanged = 0 
while (iter < maxIter) and ({alphaPairsChanged > 0) or {entireSet)): 
alphapairsChanged = 0 


if entireSet : 
for i in range (os.m): 0 遍历 所 有 的 值 
alphapairsChanged += :innerL(i,oS) 
print "fullSet, iter: %d i:%d, pairs changed %d" %\ 
{iter,i,alphapairsChanged) 


iter += 1 eis 
else: 


nonBoundIs = nonzero((oS.alphas.A > 0) * (oS.alphas.A < C)) [0] 
for i in nonBoundIs: 
alphapairsChanged += innerL(i,oSs) 
print "non-bound, iter: %d i:%d, pairs changed %d" % \ 
(iter,i,alphapairsChanged) 
iter += 1 


if entireSet: entireSet = False 
elif (alphaPairsChanged == 0): entireSet = True 
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print "iteration number: %d" % iter 
return oS.b,oS.alphas 


程序 清单 6-5 给 出 的 是 完整 版 的 Platt SMO 算 法 ， 其 输入 和 函数 smosimple () 完 全 一 样 。 函 数 
一 开始 构建 一 个 数据 结构 来 容纳 所 有 的 数据 ， 然 后 需要 对 控制 函数 退出 的 一 些 变量 进行 初始 化 。 
整个 代码 的 主体 是 while 循 环 ,这 与 smosimple() 有 些 类似, 但 是 这 里 的 循环 退出 条 件 更 多 一 些 。 
当 迭 代 次 数 超过 指定 的 最 大 值 ， 或 者 遍历 整个 集合 都 未 对 任意 alpha 对 进行 修改 时 ， 就 退出 循环 。 
这 里 的 maxItez 变 量 和 函数 smosimple() 中 的 作用 有 一 点 不 同 ， 后 者 当 没 有 任何 alpha 发 生 改 变 
时 会 将 整个 集合 的 一 次 遍历 过 程 计 成 一 次 迭代 , 而 这 里 的 一 次 迭代 定义 为 一 次 循环 过 程 ,而 不 管 
该 循环 具体 做 了 什么 事 。 此 时 ， 如 果 在 优化 过 程 中 存在 波动 就 会 停止 ， 因 此 这 里 的 做 法 优 于 
smoSimple() 函数 中 的 计数 方法 。 

while 循 环 的 内 部 与 smosimple () 中 有 所 不 同 ， 一 开始 的 for 循 环 在 数据 集 上 遍历 任意 可 能 
的 alpha 人 @。 我们 通过 调用 innerL () 来 选择 第 二 个 alpha， 并 在 可 能 时 对 其 进行 优化 处 理 。 如 果 有 
任意 一 对 alpha 值 发 生 改 变 ， 那 么 会 返回 1。 第 二 个 for 循 环 遍 历 所 有 的 非 边界 alpha 值 ， 也 就 是 不 
在 边界 0 或 c 上 的 值 @。 

接 下 来 ， 我 们 对 for 循 环 在 非 边界 循环 和 完整 遍历 之 间 进 行 切 换 ， 并 打印 出 迭代 次 数 。 最 后 
程序 将 会 返回 常数 b 和 alpha 值 。 | 

为 观察 上 述 执行 效果 ， 在 Python 提 示 符 下 输入 如 下 命令 : 

>>> dataArr, labelArr = svmMLiA.loadDataSet ('testSet .txt') 

>>> b,alphas = SvmMLiA.smoP (dataArr, labelArr, 0.6, 0.001, 40) 

non-bound, iter: 2 i:54, pairs changed 0 

non-bound, iter: 2 i:55, pairs changed 0 

iteration number: 3 

fullSet, iter: 3 i:0, pairs changed 0 


fullSet, iter: 3 i:1, pairs changed 0 
fullSet, iter: 3 i:2, pairs changed 0 


类 似 地 ,读者 也 可 以 检查 b 和 多 个 alpha 的 值 。 那 么 ， 相 对 于 简化 版 SMO 算 法 ， 上 述 方法 是 否 
更 快 ? 基于 前 面 给 出 的 设置 在 我 自己 简陋 的 笔记 本 上 运行 10 次 算法 , 然后 求 平均 值 , 最 后 得 到 的 
结果 是 0.78 秒 。 而 在 同样 的 数据 集 上 ，smoSimple () 函数 平均 需要 14.5 秒 。 在 更 大 规模 的 数据 集 
上 结果 可 能 更 好 ,, 另外 也 存在 很 多 方法 可 以 进一步 提升 其 运行 速度 。 

如 果 修 改 容错 值 结 果 会 怎样 ? 如 果 改 变 c 的 值 又 如 何 呢 ?在 6.2 节 末尾 曾经 粗略 地 提 到 ， 常 数 
c 给 出 的 是 不 同 优化 问题 的 权重 。 常 数 c 一 方面 要 保障 所 有 样 例 的 间隔 不 小 于 1.0， 另 一 方面 又 要 
使 得 分 类 间隔 要 尽 可 能 大 ， 并 且 要 在 这 两 方面 之 间 平 衡 。 如 果 c 很 大 ， 那 么 分 类 器 将 力图 通过 分 
隔 超 平面 对 所 有 的 样 例 都 正确 分 类 。 这 种 优化 的 运行 结果 如 图 6-5 所 示 。 与 图 6-4 相 比 ， 会 发 现 图 
6-5 中 的 支持 向 量 更 多 。 如 果 回 想 一 下 ， 就 会 记得 图 6-4 实 际 来 自 于 简化 版 算法 ， 该 算法 是 通过 随 
机 的 方式 选择 alpha 对 的 。 这 种 简单 的 方式 也 可 以 工作 , 但 是 效果 却 不 如 完整 版 本 好 ,后 者 覆盖 了 
整个 数据 集 。 读 者 可 能 还 认为 选 出 的 支持 向 量 应 该 始终 最 接近 分 隔 超 平面 。 给 定 c 的 设置 ， 图 中 
画 圈 的 支持 向 量 就 给 出 了 满足 算法 的 一 种 解 。 如 果 数 据 集 非 线性 可 分 , 就 会 发 现 支 持 问 量 会 在 超 
平面 附近 聚集 成 团 。 
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用 圆圈 标记 的 支持 向 量 








3 > 0 3 4 0 
图 6-5 在 数据 集 上 运行 完整 版 SMO 算 法 之 后 得 到 的 支持 向 量 ， 其 结果 与 图 6-4 稍 有 不 同 


读者 可 能 会 想 , 刚才 我 们 花 了 大 量 时 间 来 计算 那些 atpha 值 , 但 是 如 何 利用 它们 进行 分 类 呢 ? 
这 不 成 问题 ， 首 先 必须 基于 alpha 值 得 到 超 平面 ， 这 也 包括 了 w 的 计算 。 下 面 列 出 的 一 个 小 函数 可 
以 用 于 实现 上 述 任务 : 
def calcWs (alphas,dataArr,classLabels): 
X= mat(dataArr); labelMat = mat (classLabels) .transpose() 
m,n = shape (X) 
w = zeros((n,1L)) 
for i in range (mm) : 
w += multiply (alphas [il]x*labelMat[i],XIi,:] .T) 
return w 


上 述 代码 中 最 重要 的 部 分 是 for 循 环 ， 虽 然 在 循环 中 实现 的 仅仅 是 多 个 数 的 乘积 。 看 一 下 前 
面 计算 出 的 任何 一 个 alpha, 就 不 会 忘记 大 部 分 alpha 值 为 0。 而 非 零 alpha 所 对 应 的 也 就 是 支持 向 量 。 
虽然 上 述 for 循 环 遍历 了 数据 集中 的 所 有 数据 ， 但 是 最 终 起 作用 只 有 支持 向 量 。 由 于 对 w 计 算 训 
. 无 作用 ， 所 以 数据 集 的 其 他 数据 点 也 就 会 很 容易 地 被 舍弃 。 
为 了 使 用 前 面 给 出 的 函数 ， 输 入 如 下 命令 : 
>>> WwWS=SVmMLiRA.CalcWs (alphas, dataArr, labelArr) 
Say 0.65307162]， 

[-0.17196128]] ) 


现在 对 数据 进行 分 类 处 理 ， 比 如 对 说 第 一 个 数据 点 分 类 ， 可 以 这 样 输入 ， 


>>> datMat=mat (dataArr) 
>>> datMat [0] *mat (ws) +b 
matrix([[-0.92555695]]) 


如 果 该 值 大 于 0, 那么 其 属于 1 类 ; 如 果 该 值 小 于 0， 那 么 则 属于 -1 类 。 对 于 数据 点 0， 应 该 得 到 的 
类 别 标 签 是 -1， 可 以 通过 如 下 的 命令 来 确认 分 类 结果 的 正确 性 ; 


>>> labelArr{0] 
| 
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还 可 以 继续 检查 其 他 数据 分 类 结果 的 正确 性 ; 

>>> datMat[21*mat(ws)+b 

matrix([[ 2.30436336]] ) 

>>> labelArr [2] 

1.0 

>>> datMat [1] *mat (ws) +b 
matrix([[-1.36706674]]) 

>>> labelArr{1] 


-1.0 
读者 可 将 该 结果 与 图 6-5 进 行 比较 以 确认 其 有 效 性 。 

我 们 现在 可 以 成 功 训练 出 分 类 器 了 , 我 想 指出 的 就 是 , 这 里 两 个 类 中 的 数据 点 分 布 在 一 条 直 
线 的 两 边 。 看 一 下 图 6-1， 大 概 就 可 以 得 到 两 类 的 分 隔 线 形状 。 但 是 ， 倘 车 两 类 数据 点 分 别 分 布 
在 一 个 圆 的 内 部 和 外 部 , 那么 会 得 到 什么 样 的 分 类 面 呢 ? 下 一 节 将 会 介绍 一 种 方法 对 分 类 器 进行 
修改 ， 以 说 明 类 别 区 域 形状 不 同情 况 下 的 数据 集 分 隔 问题 。 


6.5 在 复杂 数据 上 应 用 核 函 数 


考虑 图 6-6 给 出 的 数据 ， 这 有 点 像 图 6-1 的 方 框 C 中 的 数据 。 前 面 我 们 用 这 类 数据 来 描述 非 线 
性 可 分 的 情况 。 显 而 易 见 ， 在 该 数据 中 存在 某 种 可 以 识别 的 模式 。 其 中 一 个 问题 就 是 , 我 们 能 否 
像 线性 情况 一 样 ， 利 用 强大 的 工具 来 捕捉 数据 中 的 这 种 模式 ? 显然 , 答案 是 肯定 的 。 接 下 来 , 我 
们 就 要 使 用 一 种 称 为 核 函 数 〈kemel ) 的 工具 将 数据 转换 成 易于 分 类 器 理解 的 形式 。 本 节 首 先 解 
释 核 函数 的 概念 ,并 介绍 它们 在 支持 向 量 机 中 的 使 用 方法 。 然 后 , 介绍 一 种 称 为 径 向 基 函 数 ( radial 
bias function ) 的 最 流行 的 核 函 数 。 最 后 ， 将 该 核 函 数 应 用 于 我 们 前 面 得 到 的 分 类 器 。 


核 方法 中 的 非 线性 可 分 数据 





215 =10 -05 0.0 05 10 Ls5 
图 6-6 ”这 个 数据 在 二 维 平面 中 很 难 用 一 条 直线 分 隔 ， 不 过 很 明显 ， 这 里 存在 分 隔 方 形 


点 和 圆 形 点 的 模式 y 1 
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6.5.1 利用 核 函 数 将 数据 映射 到 高 维 空间 


在 图 6-6 中 ， 数 据点 处 于 一 个 圆 中 ， 人 类 的 大 脑 能 够 意识 到 这 一 点 。 然 而 ， 对 于 分 类 器 而 言 ， 
它 只 能 识别 分 类 器 的 结果 是 大 于 0 还 是 小 于 0。 如 果 只 在 x 和 y 轴 构成 的 坐标 系 中 插入 直线 进行 分 类 
的 话 , 我 们 并 不 会 得 到 理想 的 结果 。 我 们 或 许可 以 对 圆 中 的 数据 进行 某 种 形式 的 转换 ， 从 而 得 到 
某 些 新 的 变量 来 表示 数据 。 在 这 种 表示 情况 下 ， 我 们 就 更 容易 得 到 大 于 0 或 者 小 于 0 的 测试 结果 。 
在 这 个 例子 中 , 我 们 将 数据 从 一 个 特征 空间 转换 到 另 一 个 特征 空间 。 在 新 空间 下 , 我 们 可 以 很 容 
易 利 用 已 有 的 工具 对 数据 进行 处 理 。 数 学 家 们 喜欢 将 这 个 过 程 称 之 为 从 一 个 特征 空间 到 另 一 个 特 
征 空 间 的 映射 。 在 通常 情况 下 ， 这 种 映射 会 将 低 维 特征 空间 喘 射 到 高 维 空间 。 

这 种 从 某 个 特征 空间 到 另 一 个 特征 空间 的 映射 是 通过 核 函 数 来 实现 的 。 读 者 可 以 把 核 函数 想 
象 成 一 个 包装 器 ( wrapper ) 或 者 是 接口 〈interface )， 它 能 把 数据 从 某 个 很 难处 理 的 形式 转换 成 
为 另 一 个 较 容 易 处 理 的 形式 。 如 果 上 述 特征 空间 映射 的 说 法 听 起 来 很 让 人 迷糊 的 话 , 那么 可 以 将 
它 想象 成 为 男 外 一 种 距离 计算 的 方法 。 前面 我 们 提 到 过 距离 计算 的 方法 。 距离 计算 的 方法 有 很 多 
种 ,不久 我 们 也 将 看 到 ， 核 函数 一 样 具 有 多 种 类 型 。 经 过 空间 转换 之 后 , 我们 可 以 在 高 维 空间 中 
解决 线性 问题 ， 这 也 就 等 价 于 在 低 维 空间 中 解决 非 线 性 问题 。 、 

SVM 优 化 中 一 个 特别 好 的 地 方 就 是 ， 所 有 的 运算 都 可 以 写成 内 积 (innerproduct， 也 称 点 积 ) 
的 形式 。 向 量 的 内 积 指 的 是 两 个 向 量 相 乘 ， 之 后 得 到 单个 标量 或 者 数值 。 我 们 可 以 把 内 积 运算 替 
换 成 核 函 数 ， 而 不 必 做 简化 处 理 。 将 内 积 蔡 换 成 核 函 数 的 方式 被 称 为 核 技巧 (kermel trick ) 或 者 
核 “ 变 电 ”(kemel substation )。 

核 函 数 并 不 仅仅 应 用 于 支持 向 量 机 ， 很 多 其 他 的 机 器 学 习 算法 也 都 用 到 核 函 数 。 接 下 来 ,我 
们 将 要 来 介绍 一 个 流行 的 核 函数 ， 那 就 是 径 向 基 核 函数 。, 


6.5.2 ， 径 向 基 核 函数 


径 向 基 函 数 是 SVM 中 常用 的 一 个 核 函 数 。 径 向 基 函 数 是 一 个 采用 向 量 作为 自 变量 的 函数 , 能 
够 基于 向 量 距离 运算 输出 一 个 标量 。 这 个 距离 可 以 是 从 <0,0> 向 量 或 者 其 他 向 量 开始 计算 的 距离 。 
接 下 来 ， 我 们 将 会 使 用 到 径 向 基 函 数 的 高 斯 版 本 ， 其 具体 公式 为 


k(x,y) = “Bt = 3 


其 中 ，o 是 用 户 定义 的 用 于 确定 到 达 率 ( reach ) 或 者 说 函数 值 呐 落 到 0 的 速度 参数 。 

上 述 高 斯 核 函 数 将 数据 从 其 特征 空间 映射 到 更 高 维 的 空间 , 具体 来 说 这 里 是 映射 到 一 个 无 穷 
维 的 空间 。 关 于 无 穷 维 空间 ,读者 目前 不 需要 太 担心 。 高 斯 核 函 数 只 是 一 个 常用 的 核 函 数 ， 使 用 
者 并 不 需要 确切 地 理解 数据 到 底 是 如 何 表现 的 ， 而 且 使 用 高 斯 核 函 数 还 会 得 到 一 个 理想 的 结果 。 
在 上 面 的 例子 中 , 数据 点 基本 上 都 在 一 个 圆 内 。 对 于 这 个 例子 , 我 们 可 以 直接 检查 原始 数据 ， 并 
意识 到 只 要 度量 数据 点 到 圆心 的 距离 即 可 。 然而， 如 果 磁 到 了 一 个 不 是 这 种 形式 的 新 数据 集 ， 那 
么 我 们 就 会 陷入 困境 。 在 该 数据 集 上 ,使 用 高 斯 核 函 数 可 以 得 到 很 好 的 结果 。 当 然 ， 该 函数 也 可 
以 用 于 许多 其 他 的 数据 集 ， 并 上 且 也 能 得 到 低 错 误 率 的 结果 。 
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如 果 在 svmMLiA.py 文 件 中 添加 一 个 函数 并 稍 做 修改 ， 那 么 我 们 就 能 够 在 已 有 代码 中 使 用 核 
函数 。 首 先 ， 打 开 svMLiA.py 代 码 文件 并 输入 函数 kernelTrans ()。 然 后 ， 对 optstruct 类 进 
行 修改 ， 得 到 类 似 如 下 程序 清单 6-6 的 代码 。 


程序 清单 6-6” 核 转换 函数 
def kernelTrans (X， 和 A，kTup) : 
mn = Shape (xX) 
K = mat (zeros{ (m,1))) 


if kTup[0]=='lin': K =X* A.T 
elif kTup[0]=='rbf'.: 
for j in range(m): 
deltaRow = X{j,:] - A 
K{j] = deltaRow*deltaRow.T .9 元 素 间 的 除法 
K = exp(K /(-1*kTup[1]**2)) 
else: raise NameError('Houston We Have a Problem -- \ 
That Kernel is not recognized') 
return K 


class optSstruct: 
def _ init (self,dataMatIn, classLabels, C, toler, kTup): 
Self .x = dataMatIn 
self.labelMat = classLabels 
Self.C = C 
Self.tol = toler 
self.m = shape (dataMatIn) [0] 
Self .alphas = mat (zeros((self.m,1))) 
Self.b = 0 
self.eCache = mat(zeros((sSelf,m,2))) 
Self.K = mat(zeros((self.m,self.m)))》 
for i in zange(Self,m) : 
self.K[:,i] = kernelTrans (self.xXx, self.X[i,:], kTup) 


我 建议 读者 最 好 看 一 下 optstruct 类 的 新 版 本 。 除 了 引入 了 一 个 新 变量 kTup 之 外 , 该 版 本 和 
原来 的 optstruct 一 模 一 样 。kTup 是 一 个 包含 核 函 数 信 息 的 元 组 , 待 会 儿 我 们 就 能 看 到 它 的 作用 
了 。 在 初始 化 方法 结束 时 ， 和 矩阵 K 先 被 构建 ， 然 后 再 通过 调用 函数 kernelTrans () 进行 填充 。 全 
局 的 K 值 只 需 计 算 一 次 。 然 后 ， 当 想 要 使 用 核 函 数 时 ， 就 可 以 对 它 进行 调用 。 这 也 省 去 了 很 多 元 
余 的 计算 开销 。 

当 计算 矩阵 K 时 ， 该 过 程 多 次 调用 了 函数 kernelTrans () 。 该 函数 有 3 个 输入 参数 : 2 个 数值 
型 变量 和 1 个 元 组 。 元 组 krup 给 出 的 是 核 函数 的 信息 。 元 组 的 第 一 个 参数 是 描述 所 用 核 函 数 类 型 
的 一 个 字符 串 ， 其 他 2 个 参数 则 都 是 核 函 数 可 能 需要 的 可 选 参数 。 该 函数 首先 构建 出 了 一 个 列 向 
量 ， 然 后 检查 元 组 以 确定 核 函 数 的 类 型 。 这 里 只 给 出 了 2 种 选择 ， 但 是 依然 可 以 很 容易 地 通过 添 
加 elif 语 句 来 扩展 到 更 多 选项 。 

在 线性 核 沙 数 的 情况 下 ， 内 积 计 算 在 “所 有 数据 集 ”和 “数据 集中 的 一 行 ” 这 两 个 输入 之 间 
展开 。 在 径 向 基 核 函数 的 情况 下 , 在 for 循 环 中 对 于 算 阵 的 每 个 元 素 计算 高 斯 函数 的 值 。 而 在 for 
循环 结束 之 后 , 我 们 将 计算 过 程 应 用 到 整个 向 量 上 去 。 值 得 一 提 的 是 ， 在 NumPy 和 矩阵 中 ， 除 法 符 
号 意味 着 对 和 矩阵 元 素 展开 计算 而 不 像 在 MATLAB 中 一 样 计算 矩阵 的 逆 @。 
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最 后 ， 如 果 遇 到 一 个 无 法 识别 的 元 组 ,程序 就 会 抛 出 异常 ， 因 为 在 这 种 情况 下 不 希望 程序 再 
继续 运行 ， 这 一 点 相当 重要 。 

为 了 使 用 核 函 数 , 先期 的 两 个 函数 innerL () 和 calcEk() 的 代码 需要 做 些 修改 。 修 改 的 结果 
参见 程序 清单 6-7。 本 来 我 并 不 想 这 样 列 出 代码 ， 但 是 重新 列 出 函数 的 所 有 代码 需要 超过 90 行 ， 
我 想 任何 人 都 不 希望 这 样 。 读 者 可 以 直接 从 下 载 的 源码 中 复制 代码 段 ， 而 不 必 对 修改 片段 进行 手 ， 
工 输入 。 下 面 列 出 的 就 是 修改 的 代码 片段 。 


程序 清单 6-7 ”使 用 核 函数 时 需要 对 ;innerL () 及 calcEk() 函数 进行 的 修改 


innerL(): 
eta = 2.0 * OS.K[i,j} - oS.K[i,i] - oS.K[j,ij] 


bi = oS.b - Ei- oS.labelMat [i]* (oS8.alphas [i] -aliphaTold)*oS.K[i,il] -\ 
oS.labelMat [j]* (os.alphas [j] -alphaJold) *oS.K[i,j] 
b2 = oS.b - Ej- oS.labelMat [i]* (oS.alphas[i] -alphaIold)*oSs.K[i,j]-\ 
oS.labelMat [j]* (oS.alphas{j] -alphaJold) *oS.K[j,j] 


def calcEk (oS, k): 
fxXk = float (multiply (os.alphas,oS8.labelMat) .T*oS.K[:,k] + os.b) 
Ek = fxXk - float(oS.labelMat [k]) 
return Ek 


你 已 经 了 解 了 如 何在 训练 过 程 中 使 用 核 函 数 , 接 下 来 我 们 就 去 了 解 如 何在 测试 过 程 中 使 用 核 
函数 。 


6.5.3 在 测试 中 使 用 核 函 数 


接 下 来 我 们 将 构建 一 个 对 图 6-6 中 的 数据 点 进行 有 效 分 类 的 分 类 器 ， 该 分 类 器 使 用 了 径 向 基 
核 函 数 。 前 面 提 到 的 径 向 基 函 数 有 一 个 用 户 定义 的 输入 a 。 首 先 , 我 们 需要 确定 它 的 大 小 , 然后 
利用 该 核 函 数 构建 出 一 个 分 类 器 。 整 个 测试 函数 将 如 程序 清单 6-8 所 示 。 读 者 也 可 以 打开 一 个 文 
本 编辑 器 ， 并 且 加 入 函数 testRbf ()。 | 


程序 清单 6-8 ”利用 核 函 数 进行 分 类 的 径 向 基 测 试 函数 
def testRbf (kl=1.3): 
dataArr, labelArr = loadDataset ('testSetRBF.txt') 
b,alphas = smoP (dataArr, labelArr, 200, 0.0001, 10000, ('rbf', k1)) 
QatMat=mat (dataArr); labelMat = mat (labelArr) .transpose() 
svInd=nonzero(alphas .A>0) [0] 
svVvs=datMat [svIind] 


TabelSV = labelMat [svIind}; | 人 @ 构建 支持 向 量 矩 阵 
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print "there are %d Support Vectors'" % shape(sVs) [0] 

m,n = shape (datMat) 

errorCount = '0 

for i in range(m): 
kernelEval = kernelTrans(sVs,datMat [i,:],('rbf', k1)) 
predict=kernelEval.T * multiply (labelSV,alphas[svIind]) + b 
if sign(predict)!=sign(labelArr[i]): errorCount += 1 

print "the training error rate is: %f" % (float (errorCount)/m) 

dataArr, labelArr = loadDataSet ('testSetRBF2.txt') 

errorCount = 0 

datMat=mat (dataArr); labelMat = mat (labelArr) .transpose() 

m,n = shape (datMat) 

for i in range (m) : 
kernelEval = kernelTrans (sVs,datMat [i,:],('rbf', k1)) 
predict=kernelEval.T * multiply{labelSV,alphas[svIind]) + b 
if sign(predict) !=sign(labelArr[i]): errorCount += 1 

print "the test error rate is: %f" % {float (errorCount)/m) 


上 述 代 码 只 有 一 个 可 选 的 输入 参数 ， 该 输入 参数 是 高 斯 径 向 基 函 数 中 的 一 个 用 户 定义 变量 。 
整个 代码 主要 是 由 以 前 定义 的 函数 集合 构成 的 。 首 先 ,程序 从 文件 中 读 人 数据 集 ， 然 后 在 该 数据 
集 上 运行 Platt SMO 算 法 ， 其 中 核 函 数 的 类 型 为 'zbf '。 

优化 过 程 结束 后 ， 在 后 面 的 矩阵 数学 运算 中 建立 了 数据 的 矩阵 副本 ， 并 且 找 出 那些 非 零 的 
alpha 值 ， 从 而 得 到 所 需要 的 支持 向 量 ; 同时 ， 也 就 得 到 了 这 些 支持 向 量 和 alpha 的 类 别 标签 值 。 
这 些 值 仅仅 是 需要 分 类 的 值 。 

整个 代码 中 最 重要 的 是 for 循 环 开始 的 那 两 行 ， 它 们 给 出 了 如 何 利用 核 函 数 进 行 分 类 。 首 先 
利用 结构 初始 化 方法 中 使 用 过 的 kernelTrans () 函数 ， 得 到 转换 后 的 数据 。 然 后 ， 再 用 其 与 前 
面 的 alpha 及 类 别 标签 值 求 积 。 其 中 需要 特别 注意 的 另 一 件 事 是 , 在 这 几 行 代码 中 , 是 如 何 做 到 只 
需要 支持 向 量 数据 就 可 以 进行 分 类 的 。 除 此 之 外 ， 其 他 数据 都 可 以 直接 舍弃 。 

与 第 一 个 for 循 环 相 比 ， 第 二 个 for 循 环 仅仅 只 有 数据 集 不 同 ， 后 者 采用 的 是 测试 数据 集 。 
读者 可 以 比较 不 同 的 设置 在 测试 集 和 训练 集 上 表现 出 的 性 能 。 

为 测试 程序 清单 6-8 的 代码 ， 可 以 在 Python 提 示 符 下 输入 命令 : 

>>> reload (svmMLiA) 


<moGule 'svmMLiA' from 'svmMLiA.pyc'> 
>>> SVvMMLiA.testRbf () 


fullset, iter: 11 i:497, pairs changed 0 
fullSset, iter: 11 i:498, pairs changed 0 
fullset, iter: 11 i:499, pairs changed 0 
iteration number: 12 

there are 27 Support Vectors 

the training error rate is: 0.030000 

the test error rate is: 0.040000 


你 可 以 尝试 更 换 不 同 的 k1 参 数 以 观察 测试 错误 率 、 训 练 错误 率 、 支 持 向 量 个 数 随 k1 的 变化 
情况 。 图 6-7 给 出 了 当 k1 非 常 小 (=0.1 ) 时 的 结果 。 
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RBF k1=0.10, 85 个 支持 向 量 
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图 6-7 “在 用 户 自 定义 参数 kl = 0.1 时 的 径 向 基 画 数 。 该 参数 此 时 减少 了 每 个 支持 向 量 
的 影响 程度 ， 因 此 需要 更 多 的 支持 向 量 


图 6-7 中 共有 100 个 数据 点 ， 其 中 的 85 个 为 支持 向 量 。 优 化 算法 发 现 ， 必 须 使 用 这 些 支持 向 量 
才能 对 数据 进行 正确 分 类 。 这 就 可 能 给 了 读者 径 向 基 范 数 到 达 率 太 小 的 直觉 。 我 们 可 以 通过 增加 
o 来 观察 错误 率 的 变化 情况 。 增 加 oo 之 后 得 到 的 男 一 个 结果 如 图 6-8 所 示 。 


RBF k1=1.30, 27 个 支持 向 量 
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图 6-8 在 用 户 自 定义 参数 kl=1.3 时 的 径 向 基 函 数 。 这 里 的 支持 向 量 个 数 少 于 图 6-7 的 ， 
而 这 些 支持 向 量 在 决策 边界 周围 聚集 
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同 图 6-7 相 比 ， 图 6-8 中 只 有 27 个 支持 向 量 ， 其 数目 少 了 很 多 。 这 时 观察 一 下 函数 estRbf () 
的 输出 结果 就 会 发 现 ， 此 时 的 测试 错误 率 也 在 下 降 。 该 数据 集 在 这 个 设置 的 某 处 存在 着 最 优 值 。 
如 果 降 低 c， 那 么 训练 错误 率 就 会 降低 ， 但 是 测试 错误 率 却 会 上 升 。 

支持 向 量 的 数目 存在 一 个 最 优 值 。SVM 的 优点 在 于 它 能 对 数据 进行 高 效 分 类 。 如 果 支 持 向 量 
太 少 ， 就 可 能 会 得 到 一 个 很 差 的 决策 边界 (下 个 例子 会 说 明 这 一 点 ) 如 果 支 持 向 量 太 多 ， 也 就 
相当 于 每 次 都 利用 整个 数据 集 进行 分 类 ， 这 种 分 类 方法 称 为 k 近 邻 。 

我 们 可 以 对 SMO 算 法 中 的 其 他 设置 进行 随意 地 修改 或 者 建立 新 的 核 函 数 。 接 下 来 , 我 们 将 在 
一 个 更 大 的 数据 上 应 用 支持 向 量 机 ， 并 与 以 前 介绍 的 一 个 分 类 器 进行 对 比 。 


6.6 示例 : 手写 识别 问题 回顾 


考虑 这 样 一 个 假想 的 场景 。 你 的 老板 过 来 对 你 说 :“ 你 写 的 那个 手写 体 识别 程序 非常 好 ， 但 
是 它 占用 的 内 存 太 大 了 。 顾 客 不 能 通过 无 线 的 方式 下 载 我 们 的 应 用 ( 在 写本 书 时 , 无 线 下 载 的 限 
制 容量 为 10MB,， 可 以 肯定 , 这 将 来 会 成 为 笑料 的 。) 我 们 必须 在 保持 其 性 能 不 变 的 同时 , 使 用 更 
少 的 内 存 。 我 呢 , 告诉 了 CEO, 你 会 在 一 周 内 准备 好 , 但 你 到 底 还 得 多 长 时 间 才 能 搞定 这 件 事 ? ” 
我 不 确定 你 到 底 会 如 何 回答 ,但 是 如 果 想 要 满足 他 们 的 需求 ,你 可 以 考虑 使 用 支持 向 量 机 。 尽 管 
第 2 章 所 使 用 的 KNN 方 法 效果 不 错 ， 但 是 需要 保留 所 有 的 训练 样本 。 而 对 于 支持 向 量 机 而 言 ， 其 
需要 保留 的 样本 少 了 很 多 ( 即 只 保留 支持 向 量 )， 但 是 能 获得 可 比 的 效果 。 


网 示例 ， 基 于 SVM 的 数字 识别 人 
(1) 收集 数据 : 提供 的 文本 文件 。 
”(2) 准备 数据 : 基于 二 值 图 像 构造 向 量 。 
(3) 分 析 数 据 : 对 图 像 向 量 进行 目测 。 
(4) 训练 算法 : 采用 两 种 不 同 的 核 函 数 ， 并 对 径 向 基 核 函数 采用 不 同 的 设置 来 运行 SMO 算 法 。 
(5) 测试 算法 : 编写 一 个 函数 来 测试 不 同 的 核 函 数 并 计算 错误 率 。 
(6) 使 用 算法 ; 一 个 图 像 识别 的 完整 应 用 还 需要 一 些 图 像 处 理 的 知识 , 这 里 并 不 打算 深入 介绍 。 


使 用 第 2 章 中 的 一 些 代 码 和 SMO 算 法 ， 可 以 构建 一 个 系统 去 测试 手写 数字 上 的 分 类 器 。 打 开 
svmMLiA.py 并 将 第 2 章 knn.py 中 的 img2vector () 函数 复制 过 来 。 然 后 ， 加 入 程序 清单 6-9 中 的 
代码 。 


程序 清单 6-9 ”基于 SVM 的 手写 数字 识别 


def loadIimages (dirName): 
from os import listdir 
hwLabels = [] 
trainingFileList = listdir (dirName) 
m = len(trainingFileList) 
trainingMat = zeros((m,1024)) 
for i in range (m) : 
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fileNameStr = trainingFileDist[i] 
filestr = fileNameStr.split('.') [0] 
classNumSstr = int (filestr.split(' ')[0]) 
if classNumStr == 9: hwLabels.append(-1) 
else: hwLabels.append(1) 
trainingMat [i,:] = img2vector('%s/%s' % (dirName, fileNameStr)) 
return trainingMat, hwLabels 
def restDigits (kTup=('rbf', 10)): 
dataArr, labelArr = loadImages ('trainingDigits') 
b,alphas = .smoPp (dataArr, labelArr, 200, 0.0001, 10000, kTup) 
datMat=mat (dataArr); LabelMat = mat (labelArr) .transpose() 
svIind=nonzero (alphas .A>0) [0] 
svs=datMat [svInd] 
labelSV = labelMat [svIind]; 
print "there are %d Support Vectors' % shape (svs) [0] 
mn = shape (datMat) 
errorCount = 0 
for i in range (m): 
kernelEval = kernelTrans (svVs,datMat [i, :] ,kTup) 
predict=kernelEval.T * multiply (labelSV,alphas[svIind]) + b 
if sign(predict) !=sign(labelArr[i]): errorCount += 1 
print "the training error rate is: %f" $ (float (errorCount)/m) 
dataArr, labelArr = loadImages ('testDigits') 
errorCount = 0 
datMat=mat (dataArr); 1abelMat = mat (labelArr) .transpose () 
mn = shape (datMat) 
for i in range (m): 
kernelEval = kernelTrans (svVs,datMat {i, :] ,kTup) 
predict=kernelEval.T * multiply (labelSV,alphas[svIind]) + b 
if sign(predict) !=sign (labelArr{[i]):.errorCount += 1 
print "the test error rate is: %f" % (float(errorCount)/m) 


图 数 1oadImages () 是 作为 前 面 kNN.py 中 的 nanGwritingclassTest () 的 一 部 分 出 现 的 。 
它 已 经 被 重 构 为 自身 的 一 个 函数 。 其 中 仅 有 的 一 个 大 区 别 在 于 ， 在 KNN.py 中 代码 直接 应 用 类 别 
标签 ， 而 同 支持 向 量 机 一 起 使 用 时 ， 类 别 标签 为 -1 或 者 +1。 因 此 ， 一 旦 磁 到 数字 9， 则 输出 类 别 
标签 -1， 否 则 输出 +1。 本 质 上 ， 支 持 向 量 机 是 一 个 二 类 分 类 器 ， 其 分 类 结果 不 是 +1 就 是 -1。 基 
于 SVM 构 建 多 类 分 类 带 已 有 很 多 研究 和 对 比 了 ， 如 果 读 者 感 兴 趣 ， 建议 阅 读 C. W. Huset 等 人 发 表 
的 一 篇 论文 “A Comparison of Methods for Multiclass Support Vector Machines”®?。 由 于 这 里 我 们 
只 做 二 类 分 类 ， 因 此 除了 1 和 9 之 外 的 数字 都 被 去 掉 了 。 

下 一 个 函数 LestDigits () 并 不 是 全 新 的 函数 , 它 和 testRbf () 的 代码 几乎 一 样 ,唯一 的 大 
区 别 就 是 它 调用 了 1oadImages () 函数 来 获得 类 别 标签 和 数据 。 另 一 个 细小 的 不 同 是 现在 这 里 的 
函数 元 组 krup 是 输入 参数 ， 而 在 testRbf () 中 默认 的 就 是 使 用 rbf 核 函数 。 如 果 对 于 函数 
testDigits() 不 增加 任何 输入 参数 的 话 ， 那 么 kTup 的 默认 值 就 是 (rbf ,10)。 

输入 程序 清单 6-9 中 的 代码 之 后 ， 将 之 保存 为 svmMLiA.py 并 输入 如 下 命令 : 











OD C. W. Hus, and C. J. Lin, “A Comparison of Methods for Multiclass Support Vector Machines,” JEEE Transactions on 
Neural Networks 13, no. 2 (March 2002), 415-25。 
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>>> SvmMLiA.testDigits(('rbf', 20)) 


L==H 

fullset, iter: 3 i:401, pairs changed 0 
iteration number: 4 

there are 43 Support Vectors 

the training error rate is: 0.017413 
the test error rate ig: 0.032258 


我 尝试 了 不 同 的 c 值 ， 并 尝试 了 线性 核 函 数 ， 总 结 得 到 的 结果 如 表 6-1 所 示 。 
表 6-1 不同 g 值 的 手写 数字 识别 性 能 





内 核 ， 设 置 训练 错误 率 〈%) 测试 错误 率 〈%) 支持 向 量 数 
RBF, 0.1 0 52 402 
RBF, 5 0 3.2 402 
RBF, 10 0 0.5 99 
RBF, 50 02 2.2 41 
RBF, 100 4.5 4.3 26 
Linear 2.7 2,2 38 


表 6-1 给 出 的 结果 表明 ， 当 径 向 基 核 函数 中 的 参数 c 取 10 左 右 时 ， 就 可 以 得 到 最 小 的 测试 错误 
率 。 该 参数 值 比 前 面 例子 中 的 取 值 大 得 多 ， 而 前 面 的 测试 错误 率 在 1.3 左 右 。 为 什么 差距 如 此 之 
大 ? 原因 就 在 于 数据 的 不 同 。 在 手写 识别 的 数据 中 ， 有 1024 个 特征 ,而 这 些 特征 的 值 有 可 能 高 达 
1.0。 而 在 6.5 节 的 例子 中 ， 所 有 数据 从 -1 到 1 变化 ， 但 是 只 有 2 个 特征 。 如 何 才能 知道 该 怎么 设置 
呢 ? 说 老实 话 ， 在 写 这 个 例子 时 我 也 不 知道 。 我 只 是 对 不 同 的 设置 进行 了 多 次 尝试 。C 的 设置 也 
会 影响 到 分 类 的 结果 。 当 然 ， 存 在 另外 的 SVM 形式 ， 它 们 把 C 同 时 考虑 到 了 优化 过 程 中 ， 例 如 
v-SVM。 有 关 v-SVM 的 一 个 较 好 的 讨论 可 以 参考 本 书 第 3 章 介绍 过 的 Sergios Theodoridis 和 
Konstantinos Koutroumbas 撰 写 的 Patern Recognition?。 

你 可 能 注意 到 了 一 个 有 趣 的 现象 , 即 最 小 的 训练 错误 率 并 不 对 应 于 最 小 的 支持 向 量 数目 。 另 
一 个 值得 注意 的 就 是 , 线性 核 函 数 的 效果 并 不 是 特别 的 炎 糕 。 可 以 以 牺牲 线 性 核 函数 的 错误 率 来 
换取 分 类 速度 的 提高 。 尽 管 这 一 点 在 实际 中 是 可 以 接受 的 ， 但 是 还 得 取决 于 具体 的 应 用 。 


6.7 本章 小 结 


支持 向 量 机 是 一 种 分 类 器 。 之 所 以 称 为 “机 ”是 因为 它 会 产生 一 个 二 值 决策 结果 ， 即 它 是 一 种 
决策 “机 ”。 支 持 向 量 机 的 泛 化 错误 率 较 低 ， 也 就 是 说 它 具 有 良好 的 学 习 能 力 ， 且 学 到 的 结果 具有 
很 好 的 推广 性 。 这 些 优点 使 得 支持 向 量 机 十 分 流行 ， 有 些 人 认为 它 是 监督 学 习 中 最 好 的 定式 算法 。 

支持 向 量 机 试图 通过 求解 一 个 二 次 优化 问题 来 最 大 化 分 类 间隔 。 在 过 去 ,训练 支持 向 量 机 常 
采用 非常 复杂 并 且 低 效 的 二 次 规划 求解 方法 。John Platt 引 和 人 了 SMO 算 法 , 此 算法 可 以 通过 每 次 只 
优化 2 个 alpha 值 来 加 快 SVM 的 训练 速度 。 本 章 首 先 讨 论 了 一 个 简化 版 本 所 实现 的 SMO 优 化 过 程 ， 





GD Sergios Theodoridis and Konstantinos Koutroumbas, Patiern Recognition, 4th ed. (Academic Press, 2009), 133, 
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接着 给 出 了 完整 的 Platt SMO 算 法 。 相 对 于 简化 版 而 言 ， 完 整 版 算法 不 仅 大 大 地 提高 了 优化 的 速 
度 ， 还 使 其 存在 一 些 进一步 提高 运行 速度 的 空间 。 有 关 这 方面 的 工作 ,一 个 经 常 被 引用 的 参考 文 
献 就 是 “Improvements to Platt's SMO Algorithm for SVM Classifier Design”?。 

核 方 法 或 者 说 核 技巧 会 将 数据 ( 有 时 是 非 线性 数据 ) 从 一 个 低 维 空间 映射 到 一 个 高 维 空间 ， 
可 以 将 一 个 在 低 维 空间 中 的 非 线性 问题 转换 成 高 维 空间 下 的 线性 问题 来 求解 。 核 方法 不 止 在 SVM 
中 适用 ,还 可 以 用 于 其 他 算法 中 。 而 其 中 的 径 向 基 函 数 是 一 个 常用 的 度量 两 个 向 量 上 距离 的 核 函 数 。 

支持 向 量 机 是 一 个 二 类 分 类 器 。 当 用 其 解决 多 类 问题 时 ， 则 需要 额外 的 方法 对 其 进行 扩 ' 展 。 
SVM 的 效果 也 对 优化 参数 和 所 用 核 函 数 中 的 参数 敏感 。 

下 一 章 将 通过 介绍 一 个 称 为 boosting 的 方法 来 结束 我 们 有 关 分 类 的 介绍 。 读 者 不 久 就 会 看 到 ， 
在 boosting 和 SVM 之 间 存 在 着 许多 相似 之 处 。 





QD S. S. Keerthi, S. K. Shevade, C, Bhattacharyya, and K. R. K. Murthy, “Improvements to Platt's SMO Algorithm for SVM 
Classifier Design,” Neural Computation 13, no. 3,( 2001), 637-49. 


wwaibbt.com DODODODODOD 













利用 AdaBoost 元 算法 提高 
分 类 性 能 





本 章 内 容 

口 组 合 相似 的 分 类 器 来 提高 分 类 性 能 
口 应 用 AdaBoost 算 法 

口 处 理 非 均衡 分 类 问题 


当做 重要 决定 时 ,大 家 可 能 都 会 考虑 吸取 多 个 专家 而 不 只 是 一 个 人 的 意见 。 机 器 学 习 处 理 问 
题 时 又 何尝 不 是 如 此 ?这 就 是 元 算法 ( meta-algorithm ) 背后 的 思路 。 元 算法 是 对 其 他 算法 进行 组 
合 的 一 种 方式 。 接 下 来 我 们 将 集中 关注 一 个 称 作 AdaBoost 的 最 流行 的 元 算法 。 由 于 某 些 人 认为 
AdaBoost 是 最 好 的 监督 学 习 的 方法 ， 所 以 该 方法 是 机 器 学 习 工 具 箱 中 最 强 有 力 的 工具 之 一 。 

本 章 首 先 讨 论 不 同 分 类 器 的 集成 方法 ， 然 后 主要 关注 boosting 方 法 及 其 代表 分 类 器 Adaboost。 
再 接 下 来 ， 我 们 就 会 建立 一 个 单 层 决策 树 ( decision stump ) 分 类 器 。 实 际 上 上 ， 它 是 一 个 单 节 点 的 
决策 树 。AdaBoost 算 法 将 应 用 在 上 述 单 层 决策 树 分 类 器 之 上 。 我 们 将 在 一 个 难 数 据 集 上 应 用 
AdaBoost 分 类 器 ， 以 了 解 该 算法 是 如 何 迅速 超越 其 他 分 类 器 的 。 

最 后 ， 在 结束 分 类 话题 之 前 ， 我 们 将 讨论 所 有 分 类 器 都 会 遇 到 的 一 个 通用 问题 ; 非 均衡 分 类 
问题 。 当 我 们 试图 对 样 例 数目 不 均衡 的 数据 进行 分 类 时 ,就 会 过 到 这 个 问题 。 信 用 卡 使 用 中 的 欺 
诈 检测 就 是 非 均衡 问题 中 的 一 个 极 好 的 例子 , 此 时 我 们 可 能 会 对 每 一 个 正 份 样 木 部 有 1000 个 反例 
样本 。 在 这 种 情况 下 ， 分 类 器 将 如 何 工 作 ? 读者 将 会 了 解 到 ， 可 能 需要 利川 修改 后 的 指标 来 评价 
分 类 器 的 性 能 。 而 就 这 个 问题 而 言 ， 并 非 AdaBoost 所 独 用 ， 只 是 因为 这 是 分 类 的 最 后 一 章 ， 因 此 
到 了 讨论 这 个 问题 的 最 佳 时 机 。 


7.1 基于 数据 集 多 重 抽样 的 分 类 器 


前 面 已 经 介绍 了 五 种 不 同 的 分 类 算法 ， 它 们 各 有 优 缺 点 。 我 们 自然 可 以 将 不 同 的 分 类 器 组 合 
起 来 ， 而 这 种 组 合 结果 则 被 称 为 集成 方法 ( ensemble method ) 或 者 元 算法 ( meta-algorithm )。 使 
用 集成 方法 时 会 有 多 种 形式 ， 可 以 是 不 同 算法 的 集成 ， 也 可 以 是 同一 算法 在 不 同 设置 下 的 集成 ， 
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还 可 以 是 数据 集 不 同 部 分 分 配给 不 同 分 类 器 之 后 的 集成 。 接 下 来 , 我 们 将 介绍 基于 同一 种 分 类 器 
多 个 不 同 实例 的 两 种 计算 方法 。 在 这 些 方法 当中 , 数据 集 也 会 不 断 变化 ， 而 后 应 用 于 不 同 的 实例 
分 类 器 上 。 最 后 ， 我 们 会 讨论 如 何 利用 机 器 学 习 问题 的 通用 框架 来 应 用 AdaBoost 算 法 。 


pn 
上 4 
f 


a ~. AdaBoost : 
优点 ; 泛 化 错误 率 低 ， 易 编码 ， 可 以 应 用 在 大 部 分 分 类 器 上 ， 无 参数 调整 。 

缺点 : 对 离 群 点 敏感 。 

适用 数据 类 型 ， 数值 型 和 标 称 型 数据 。 


7.1.1 bagging: 基于 数据 随机 重 抽样 的 分 类 器 构建 方法 


自 举 汇聚 法 ( bootstrap aggregating )， 也 称 为 bagging 方 法 ， 是 在 从 原始 数据 集 选 择 $ 次 后 
得 到 5 个 新 数据 集 的 一 种 技术 。 新 数据 集 和 原 数据 集 的 大 小 相等 。 每 个 数据 集 都 是 通过 在 原始 
数据 集中 随机 选择 一 个 样本 来 进行 奈 换 而 得 到 的 ?。 这 里 的 硅 换 就 意味 着 可 以 多 次 地 选择 同一 
样本 。 这 一 性 质 就 允许 新 数据 集中 可 以 有 重复 的 值 ， 而 原始 数据 集 的 某 些 值 在 新 集合 中 则 不 
再 出 现 。 

在 3 个 数据 集 建 好 之 后 , 将 某 个 学 习 算法 分 别 作用 于 每 个 数据 集 就 得 到 了 5 个 分 类 器 。 当 我 们 


” 要 对 新 数据 进行 分 类 时 ， 就 可 以 应 用 这 5 个 分 类 器 进行 分 类 。 与 此 同时 ， 选 择 分 类 器 投票 结果 中 


最 多 的 类 别 作为 最 后 的 分 类 结果 。 

当然 ， 还 有 一 些 更 先进 的 bagging 方 法 ， 比 如 随机 森林 (random forest )。 有 关 这 些 方法 的 一 
个 很 好 的 讨论 材料 参见 网 页 http://wwvw.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm。 接 
下 来 我 们 将 注意 力 转 向 一 个 与 bagging 类 似 的 集成 分 类 器 方法 boosting。 


7.1.2 boosting 


boosting 是 一 种 与 bagging 很 类 似 的 技术 。 不 论 是 在 boosting 还 是 bagging 当 中 ， 所 使 用 的 多 个 
分 类 器 的 类 型 都 是 一 致 的 。 但 是 在 前 者 当中 , 不同 的 分 类 器 是 通过 串 行 训练 而 获得 的 ， 每 个 新 分 
类 器 都 根据 已 训练 出 的 分 类 器 的 性 能 来 进行 训练 。boosting 是 通过 集中 关注 被 已 有 分 类 器 错 分 的 
那些 数据 来 获得 新 的 分 类 器 。 

由 于 boosting 分 类 的 结果 是 基于 所 有 分 类 器 的 加 权 求 和 结果 的 , 因此 boosting 与 bagging 不 太一 
样 。bagging 中 的 分 类 器 权重 是 相等 的 ， 而 boosting 中 的 分 类 器 权重 并 不 相等 ， 每 个 权重 代表 的 是 
其 对 应 分 类 器 在 上 一 轮 迭 代 中 的 成 功 度 。 

boosting 方 法 拥有 多 个 版 本 ， 本 章 将 只 关注 其 中 一 个 最 流行 的 版 本 AdaBoost。 





QD 这 里 的 意思 是 从 原始 集合 中 随机 选择 一 个 样本 ， 然 后 随机 选择 一 个 样本 来 代替 这 个 样本 。 在 其 他 书 中 ，bagging 
中 的 数据 集 通 常 被 认为 是 放 回 取样 得 到 的 ， 比 如 要 得 到 一 个 大 小 为 n 的 新 数据 集 ， 该 数据 集中 的 每 个 样本 都 是 在 
原始 数据 集中 随机 机 样 〔 即 抽样 之 后 又 放 回 ) 得 到 的 。 一 一 译 者 注 





wwaibbt.com DODDDOODODOD 


7.2 训练 算法 :基于 错误 提升 分 类 器 的 性 能 117 








AdaBoost 的 一 般 流程 i 

(1) 收集 数据 :可 以 使 用 任意 方法 。 

(2) 准备 数据 : 依赖 于 所 使 用 的 弱 分 类 器 类 型 ， 本 章 使 用 的 是 单 层 决策 树 ， 这 种 分 类 器 可 
以 处 理 任何 数据 类 型 。 当 然 也 可 以 使 用 任意 分 类 器 作为 弱 分 类 器 ， 第 2 章 到 第 6 章 中 的 
任 一 分 类 器 都 可 以 充当 弱 分 类 器 。 作 为 弱 分 类 器 ， 简 单 分 类 器 的 效果 更 好 。 

(3) 分 析 数 据 ， 可 以 使 用 任意 方法 。 

(4) 训练 算法 : AdaBoost 的 大 部 分 时 间 都 用 在 训练 上 ， 分 类 器 将 多 次 在 同一 数据 集 上 训练 
弱 分 类 器 。 

(5) 测试 算法 : 计算 分 类 的 错误 率 。 

(6) 使 用 算法 : 同 SVM 一 样 ，AdaBoost 预 测 两 个 类 别 中 的 一 个 。 如 果 想 把 它 应 用 到 多 个 类 
别 的 场合 ， 那 么 就 要 像 多 类 SVM 中 的 做 法 一 样 对 AdaBoost 进 行 修改 。 


下 面 我 们 将 要 讨论 AdaBoost 背 后 的 一 些 理论 ， 并 揭示 其 效果 不 错 的 原因 。 
7.2 训练 算法 ， 基 于 错误 提升 分 类 器 的 性 能 


能 否 使 用 弱 分 类 器 和 多 个 实例 来 构建 一 个 强 分 类 器 ? 这 是 一 个 非常 有 趣 的 理论 问题 。 这 里 的 
“ 弱 ” 意 味 着 分 类 器 的 性 能 比 随机 猜测 要 略 好 ， 但 是 也 不 会 好 太 多 。 这 就 是 说 ， 在 二 分 类 情况 下 | 
弱 分 类 器 的 错误 率 会 高 于 50%， 而 “ 强 ” 分 类 器 的 错误 率 将 会 低 很 多 。AdaBoost 算 法 即 脱胎 于 上 
述 理论 问题 。 

AdaBoost 是 adaptive boosting ( 自 适 应 boosting ) 的 缩写 ， 其 运行 过 程 如 下 : 训练 数据 中 的 每 
个 样本 ， 并 赋予 其 一 个 权重 ， 这 些 权重 构成 了 向 量 D。 一 开始 ， 这 些 权重 都 初始 化 成 相等 值 。 首 
先 在 训练 数据 上 训练 出 一 个 弱 分 类 器 并 计算 该 分 类 器 的 错误 率 , 然后 在 同一 数据 集 上 再 次 训练 弱 
分 类 器 。 在 分 类 器 的 第 二 次 训练 当中 ,将 会 重新 调整 每 个 样本 的 权重 ， 其 中 第 一 次 分 对 的 样本 的 
权重 将 会 降低 ， 而 第 一 次 分 错 的 样本 的 权重 将 会 提高 。 为 了 从 所 有 弱 分 类 器 中 得 到 最 终 的 分 类 结 
果 ，AdaBoost 为 每 个 分 类 器 都 分 配 了 一 个 权重 值 alpha， 这 些 alpha 值 是 基于 每 个 弱 分 类 带 的 错误 
率 进行 计算 的 。 其 中 ,错误 率 e 的 定义 为 ， 

NE 未 正确 分 类 的 样本 数目 | 
所 有 样本 数目 | 





而 alpha 的 计算 公式 如 下 : 


AdaBoost 算 法 的 流程 如 图 7-1 所 示 。 
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图 7-1 AdaBoost 算 法 的 示意 图 。 左 边 是 数据 集 ， 其 中 直方 图 的 不 同 宽度 表示 每 个 样 例 

上 的 不 同 权重 。 在 经 过 一 个 分 类 器 之 后 ， 加 权 的 预测 结果 会 通过 三 角形 中 的 

alpha 值 进行 加 权 。 每 个 三 角形 中 输出 的 加 权 结 果 在 圆 形 中 求 和 ， 从 而 得 到 最 终 
的 输出 结果 


计算 出 alpha 值 之 后 ,可 以 对 权重 向 量 D 进 行 更 新 ， 以 使 得 那些 正确 分 类 的 样本 的 权重 降低 而 
| 错 分 样本 的 权重 升 高 。D 的 计算 方法 如 下 。 
如 果 某 个 样本 被 正确 分 类 ， 那 么 该 样本 的 权重 更 改 为 : 
DD - DoOe 
Sum(D) 
而 如 果 某 个 样本 被 错 分 ， 那 么 该 样本 的 权重 更 改 为 ， 
DD - De 
Sum(D) 
在 计算 出 D 之 后 ，AdaBoost 又 开始 进入 下 一 轮 迄 代 。AdaBoost 算 法 会 不 断 地 重复 训练 和 调整 
权重 的 过 程 ， 直 到 训练 错误 率 为 0 或 者 弱 分 类 器 的 数目 达到 用 户 的 指定 值 为 止 。 
接 下 来 , 我们 将 建立 完整 的 AdaBoost 算 法 。 在 这 之 前 , 我 们 首先 必须 通过 一 些 代 码 来 建立 弱 
分 类 器 及 保存 数据 集 的 权重 。 


7.3 ”基于 单 层 决策 树 构建 弱 分 类 器 


单 层 决策 树 ( decision stump， 也 称 决策 树 桩 ) 是 一 种 简单 的 决策 树 。 前 面 我们 已 经 介绍 了 决 
策 树 的 工作 原理 ， 接 下 来 将 构建 一 个 单 层 决策 树 ， 而 它 仅 基于 单个 特征 来 做 决策 。 由 于 这 棵 树 只 
有 一 次 分 裂 过 程 ， 因 此 它 实 际 上 就 是 一 个 树桩 。 


wwaibbt.com DODODOOOD 


| 


7.3 基于 单 层 决策 树 构建 弱 分 类 器 119 








在 构造 AdaBoost 的 代码 时 ， 我 们 将 首先 通过 一 个 简单 数据 集 来 确保 在 算法 实现 上 一 切 就 绪 。 
然后 ， 建 立 一 个 叫 adaboost py 的 新 文件 并 加 入 如 下 代码 


def ljoadqSimpData() : 


datMat = matrix([[ 1. , 2.1]， 
[ 25 3 LE); 
{ 1.3, 二 3 
| Bs We 了 
[ 2 1. ]]) 


classLabels = [1.0, 1.0, -1.0, -1.0, 1.0] 
return datMat,classLabels 


图 7-2 给 出 了 上 述 数 据 集 的 示意 图 。 如 果 想 要 试 着 从 某 个 坐标 轴 上 选择 一 个 值 〈 即 选择 一 条 
与 坐标 轴 平 行 的 直线 ) 来 将 所 有 的 圆 形 点 和 方形 点 分 开 , 这 显然 是 不 可 能 的 。 这 就 是 单 层 决策 树 
难以 处 理 的 一 个 著名 问题 。 通 过 使 用 多 棵 单 层 决策 树 , 我 们 就 可 以 构建 出 一 个 能 够 对 该 数据 集 完 
全 正确 分 类 的 分 类 器 。 


单 层 决策 树 测试 数据 


”2.2 


2.0 





1.8 
1.6 3 


1.4 


0.8.8 16 13 14 16 18 20 2.2 
图 7-2 ”用 于 检测 AdaBoost 构 建 函 数 的 简单 数据 。 这 不 可 能 仅仅 通过 在 某 个 坐标 轴 上 选 
择 某 个 阀 值 来 将 圆 形 点 和 方形 点 分 开 。AdaBoost 需 要 将 多 个 单 层 决策 树 组 合 起 
来 才能 对 该 数据 集 进行 正确 分 类 


通过 键 人 如 下 命令 可 以 实现 数据 集 和 类 标签 的 导入 : 


>>> import adaboost 
>>> datMat,classLabeis=adaboost .ioadSimpData () 


有 了 数据 ， 接 下 来 就 可 以 通过 构建 多 个 函数 来 建立 单 层 决策 树 。 

第 一 个 函数 将 用 于 测试 是 否 有 某 个 值 小 于 或 者 大 于 我 们 正在 测试 的 阔 值 。 第 二 个 函数 则 更 加 
复杂 一 些 ， 它 会 在 一 个 加 权 数 据 集 中 循环 ， 并 找到 具有 最 低 错误 率 的 单 层 决策 树 。 

这 个 程序 的 伪 代 码 看 起 来 大 致 如 下 : 
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将 最 小 错误 率 minError 设 为 +oo 
对 数据 集中 的 每 一 个 特征 (第 一 层 循环 ): 
对 每 个 步 长 (第 二 层 循环 ): 
对 每 个 不 等 号 (第 三 层 循 环 ): 
建立 一 棵 单 层 决策 树 并 利用 加 权 数 据 集 对 它 进 行 测试 
如 果 错 误 率 低 于 minError， 则 将 当前 单 层 决策 树 设 为 最 住 单 层 决策 树 
返回 最 佳 单 层 决策 树 
接 下 来 ， 我 们 开始 构建 这 个 函数 。 将 程序 清单 7-1 中 的 代码 输入 到 boost.py 中 并 保存 文件 。 
程序 清单 7-1 单 屋 决策 树 生 成 函数 


def stumpClassify (dataMatrix,dimen,threshVal,threshIineq): 
retArray = ones((shape (dataMatrix) [0] ,1)) 


if threshIned == ‘lt': 

retArray {dataMatrix[:,dimen] <= threshVal]} = -1.0 
else: 

retArray [dataMatrix[:,dimen] > threshVal] = -1.0 


return retArray 


def buildstump (dataArr,classLabels,D): 
dataMatrix = mat (dataArr); labelMat = mat (classLabels).T 
m,n = shape (dataMatrix) 
numSteps = 10.0; beststump = {}; bestClasEst = mat (zeros((m,1))) 
minError = inf 
for i in range (n) : 
rangeMin = dataMatrix[:.,i] .min(); rangeMax = dataMatrix[:,i] .max(); 
stepSize = (rangeMax-rangeMin) /numSteps 
for j in range(-1,int (numSteps)+1) : 
for inequal in [{['lt', 'gt']: 
threshVal = (rangeMin + float{(j) * stepSize) 
predictedVals = \ 
stumpClassify (dataMatrix,i,threshVal,inequal) 
errArr = mat {ones( {m,1))) 
errArr[predictedVals == labelMat]} = 0 
weightedError = D.T*errArr 
#print "split: dim %d, thresh %.2f, thresh ineqal: \ 
$s, the weighted error is %.3f" 多 \ 
(i, threshVval, inequal, weightedError) 
if weightedError < minError: 
minError = weightedError 
bestClasEst = predictedVals.copy () 
beststump['dim'] = i 计算 加 权 错 误 率 
bestStump ['thresh'] = threshVal 
bestStumpl'ineq'] = inequal 
return bestSstump,minError,bestClasEst 


上 述 程 序 包含 两 个 消 数 。 第 一 个 函数 s tumpClassify() 是 通过 闭 值 比较 对 数据 进行 分 类 的 。 
所 有 在 阔 值 一 边 的 数据 会 分 到 类 别 -1， 而 在 另外 一 边 的 数据 分 到 类 别 +1l。 该 函数 可 以 通过 数组 过 
滤 来 实现 , 首先 将 返回 数组 的 全 部 元 素 设置 为 1, 然后 将 所 有 不 满足 不 等 式 要 求 的 元 素 设置 为 -1。 
可 以 基于 数据 集中 的 任 一 元 素 进行 比较 ， 同 时 也 可 以 将 不 等 号 在 大 于 、 小 于 之 间 切 换 。 
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第 二 个 函数 buildastump () 将 会 遍历 stumpclassify() 函数 所 有 的 可 能 输入 值 ， 并 找到 数 
据 集 上 最 佳 的 单 层 决策 树 。 这 里 的 “最 佳 ”是 基于 数据 的 权重 向 量 pD 来 定义 的 ， 读 者 很 快 就 会 看 
到 其 具体 定义 了 。 在 确保 输入 数 据 符合 矩阵 格式 之 后 ， 整 个 函数 就 开始 执行 了 。 然 后 ， 函 数 将 构 
建 一 个 称 为 beststump 的 空 字 典 ， 这 个 字典 用 于 存储 给 定 权重 向 量 D 时 所 得 到 的 最 佳 单 层 决策 树 
的 相关 信息 。 变量 humsteps 用 于 在 特征 的 所 有 可 能 值 上 进行 遍历 。 而 变量 minError 则 在 一 开始 
就 初始 化 成 正 无 穷 大 ， 之 后 用 于 寻找 可 能 的 最 小 错误 率 。 

三 层 嵌 套 的 for 循 环 是 程序 最 主要 的 部 分 。 第 一 层 for 循 环 在 数据 集 的 所 有 特征 上 遍历 。 考 
虑 到 数值 型 的 特征 , 我 们 就 可 以 通过 计算 最 小 值 和 最 大 值 来 了 解 应 该 需要 多 大 的 步 长 。 然 后 ,第 
二 层 for 循 环 再 在 这 些 值 上 遍历 。 甚 至 将 阀 值 设置 为 整个 取 值 范围 之 外 也 是 可 以 的 。 因 此 ， 在 取 
值 范围 之 外 还 应 该 有 两 个 额外 的 步骤 。 最 后 一 个 for 循 环 则 是 在 大 于 和 小 于 之 间 切 换 不 等 式 。 

在 嵌 套 的 三 层 for 循 环 之 内 ， 我 们 在 数据 集 及 三 个 循环 变量 上 调用 stumpclassify() 函数 。 
其 于 这 些 循环 变量 ， 该 函数 将 会 返回 分 类 预测 结果 。 接 下 来 构建 一 个 列 向 量 errarr， 如 果 
predictedVals 中 的 值 不 等 于 labelMat 中 的 真正 类 别 标签 值 ,那么 errArr 的 相应 位 置 为 1。 将 
错误 向 量 errArr 和 权重 向 量 Dp 的 相应 元 素 相 乘 并 求 和 ， 就 得 到 了 数值 weightedError@。 这 就 
是 AdaBoost 和 分 类 器 交互 的 地 方 。 这 里 ， 我 们 是 基于 权重 向 量 D 而 不 是 其 他 错误 计算 指标 来 评价 
分 类 器 的 。 如 果 需 要 使 用 其 他 分 类 器 的 话 ， 就 需要 考虑 D 上 最 佳 分 类 器 所 定义 的 计算 过 程 。 

程序 接 下 来 输出 所 有 的 值 。 虽然 这 一 行 后 面 可 以 注释 掉 , 但 是 它 对 理解 函数 的 运行 还 是 很 有 
帮助 的 。 最 后 , 将 当前 的 错误 率 与 已 有 的 最 小 错误 率 进 行 对 比 ， 如 果 当 前 的 值 较 小 ， 那么 就 在 词 
典 bestSstump 中 保存 该 单 层 决策 树 。 字 典 、 错 误 率 和 类 别 估 计 值 都 会 返回 给 AdaBoost 算 法 。 

为 了 解 实际 运行 过 程 ， 在 Python 提示 符 下 输入 如 下 命令 ， 

>>> D = mat (ones ((5,1))/5) 

>>> adaboost .buildstump (datMat, classLabels,D) 

split: dim 0, thresh 0.90, thresh ineqal: 1lt, the weighted error is 0.400 

split: dim 0, thresh 0.90, thresh ineqal: gt, the weighted error is 0.600 


split: dim 0, thresh 1.00, thresh ineqal:. lt, the weighted error is 0.400 
split: dim 0, thresh 1.00, thresh ineqal: gt, the weighted error is 0.600 


split: dim 1, thresh 2.10, thresh ineqal: lt, the weighted error is 0.600 
split: Qim 1, thresh 2.10, thresh ineqal: gt, the weighted error is 0.400 
({'dim': 'ineq': 'lt', 'thresh': 1.3}, matrix([[ 0.2]]), array([{-1.], 


[ 
[- 
[- 
[ 


buildstump 在 所 有 可 能 的 值 上 遍历 的 同时 ， 我 们 也 可 以 看 到 输出 的 结果 ， 并 且 最 后 会 看 到 
返回 的 字典 。 读 者 可 以 思考 一 下 , 该 词典 是 否 对 应 了 最 小 可 能 的 加 权 错 误 率 ? 是 否 存在 其 他 的 设 
置 也 能 得 到 相同 的 错误 率 ? 

” ”上述 单 层 决策 树 的 生成 函数 是 决策 树 的 一 个 简化 版 本 。 它 就 是 所 谓 的 弱 学习 器 ,， 即 弱 分 类 算 
法 。 到 现在 为 止 ， 我 们 已 经 构建 了 单 层 决策 树 ， 并 生成 了 程序 ， 做 好 了 过 渡 到 完整 AdaBoost 算 法 
的 准备 。 在 下 一 节 当中 ， 我 们 将 使 用 多 个 弱 分 类 器 来 构建 AdaBoost 代 码 。 
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7.4 完整 AdaBoost 算法 的 实现 


在 上 一 节 , 我 们 构建 了 一 个 基于 加 权 输 入 值 进行 决策 的 分 类 器 。 现 在 , 我 们 拥有 了 实现 一 个 
完整 AdaBoost 算 法 所 需要 的 所 有 信息 。 我 们 将 利用 7.3 节 构建 的 单 层 决策 树 来 实现 7.2 节 中 给 出 提 
纲 的 算法 。 
整个 实现 的 伪 代 码 如 下 : 
对 每 次 迭代 : 
| 利用 puildStump () 函数 找到 最 佳 的 单 层 决 策 树 
将 最 佳 单 层 决策 树 加 入 到 单 层 决策 树 数组 
计算 alpha 
| 计算 新 的 权重 向 量 D 
更 新 累计 类 别 估计 值 
如 果 错 误 率 等 于 0.0， 则 退出 循环 


为 了 将 该 函数 放 人 Python 中 ， 打开 adaboostpy 文 件 并 将 程序 清单 7-2 的 代码 加 入 其 中 
程序 清单 7-2 “基于 单 层 决策 树 的 AdaBoost 训 练 过 程 


def adaBoostTrainDs (aataRrz,classLabels,numIt=40) : 
weakClassArr = [] 
m = Shape{dataArr) 10] 
D = mat (ones{( (m,1))/m) 
aggClassEst = mat (zeros({(m,1))) 
| for i in range (numIL) : 
beststump,error,classEst = buildstump (dataArr,classLabels,D) 
print "*D:",D.T 
alpha = float{(0.5*log((1.0-error)/max(error,1e-16))) 
bestStump ['alpha'] = alpha 
weakClassArr .append(bestStump) 





print "classEst: ",classEst.T 

expon = multiply(-1i*alpha*mat (classLabels) .T,classEst) 为 下 一 次 迭 
D = multiply (D, exp (expon)) 代 计 算 D 

D = D/D.sum(). 


aggClassEst += alpha*classEst 
print "aggClassEst: ",aggClassEst.T 壮 1 旺 、 
aggErrors = eh red != # 误 率 时 加 计算 
mat {classLabels) .T,ones ( (m,1))) 
errorRate = aggErrors.sum()/m 
print "total error: ",errorRate,"\n'" 
if errorRate == 0.0: break 
return weakClassArr 
>>> classifierArray = adaboost .adaBoostTrainDs (datMat ,classLabels, 9) 
Ds [Ut 0.2 .2 0i2 0 v21] 
classEst: [{-1. 1. -1. -1. 1.]] 
aggClassEst: [[-0.,69314718 0.69314718 -0.69314718 -0.69314718 
0.69314718]] 
total error: 0.2 
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D: [[ 0.5 0.125 0.125 0.125 0.125]] 

classEst: [[ 1. 1. -1. -1. -1.]] 

aggClassEst: [[ 0.27980789 1.66610226 -1.66610226 -1.66610226 
， -0.27980789]] 

total error: 0.2 


D: [[ 0.28571429 0.07142857 0.07142857 0.07142857 0.5 .]] 
classEst: CL Ts Te LE 
aggCliassEst: [[ 1.17568763 2.56198199 -0.77022252 -0.77022252 


0.61607184]] 
total error: 0.0 


AdaBoost 算 法 的 输入 参数 包括 数据 集 、 类 别 标签 以 及 迭代 次 数 numTt， 其 中 numIt 是 在 整个 
AdaBoost 算 法 中 唯一 需要 用 户 指定 的 参数 。 

我 们 假定 迭代 次 数 设 为 ?%， 如 果 算 法 在 第 三 次 迭代 之 后 错误 率 为 0， 那 么 就 会 退出 迭代 过 程 ， 
因此 ， 此 时 就 不 需要 执行 所 有 的 9 次 迭代 过 程 。 每 次 迭代 的 中 间 结 果 都 会 通过 print 语 句 进行 输 
出 。 后 面 ， 读 者 可 以 把 print 输 出 语句 注释 掉 ， 但 是 现在 可 以 通过 中 间 结 果 来 了 解 AdaBoost 算 法 
的 内 部 运行 过 程 。 

函数 名 称 尾部 的 DS 代 表 的 就 是 单 层 决 策 树 (decision stump )， 它 是 AdaBoost 中 最 流行 的 弱 分 
类 器 ， 当 然 并 非 唯一 可 用 的 弱 分 类 器 。 上 述 函 数 确 实 是 建立 于 单 层 决策 树 之 上 的 ,但 是 我 们 也 可 
以 很 容易 对 此 进行 修改 以 引入 其 他 基 分 类 器 。 实 际 上 , 任意 分 类 器 都 可 以 作为 基 分 类 器 ， 本 书 前 
面 讲 到 的 任何 一 个 算法 都 行 。 上述 算 法 会 输出 一 个 单 层 决策 树 的 数组 ,因此 首先 需要 建立 一 个 新 
的 Python 表 来 对 其 进行 存储 。 然 后 ， 得 到 数据 集中 的 数据 点 的 数目 mn， 并 建立 一 个 列 向 量 D。 

向 量 D 非 常 重要 ， 它 包含 了 每 个 数据 点 的 权重 。 一 开始 ， 这 些 权 重 都 赋予 了 相等 的 值 。 在 后 
续 的 迭代 中 ,AdaBoost 算 法 会 在 增加 错 分 数据 的 权重 的 同时 ， 降 低 正确 分 类 数据 的 权重 。 刀 是 一 
个 概率 分 布 向 量 ， 因 此 其 所 有 的 元 素 之 和 为 1.0。 为 了 满足 此 要 求 ， 一 开始 的 所 有 元 素 都 会 被 初 
始 化 成 lm。 同时 ， 程 序 还 会 建立 另 一 个 列 向 量 aggclassEst， 记 录 每 个 数据 点 的 类 别 估 计 累 
计 值 。 

AdaBoost 算 法 的 核心 在 于 for 循 环 , 该 循环 运行 numIt 次 或 者 直到 训练 错误 率 为 0 为 止 。 循 环 
中 的 第 一 件 事 就 是 利用 前 面 介 绍 的 bui lastump () 函数 建立 一 个 单 层 决策 树 。 该 函数 的 输入 为 权 
重 向 量 D， 返 回 的 则 是 利用 D 而 得 到 的 具有 最 小 错误 率 的 单 层 决策 树 ， 同 时 返回 的 还 有 最 小 的 错 
误 率 以 及 估计 的 类 别 向 量 。 

接 下 来 , 需要 计算 的 则 是 alpha 值 。 该 值 会 告诉 总 分 类 器 本 次 单 层 决策 树 输 出 结果 的 权重 。 其 
中 的 语句 max (error，1e-16) 用 于 确保 在 没有 错误 时 不 会 发 生 除 零 游 出。 而后，alpha 值 加 入 到 
bestStump 字 上 典 中 ， 该 字典 又 添加 到 列表 中 。 该 字典 包括 了 分 类 所 需要 的 所 有 信息 。 

接 下 来 的 三 行 @@ 则 用 于 计算 下 一 次 迭代 中 的 新 权重 向 量 D。 在 训练 错误 率 为 0 时 ， 就 要 提前 
结束 for 循 环 。 此 时 程序 是 通过 aggclassEst 变 量 保持 一 个 运行 时 的 类 别 估计 值 来 实现 的 @。 该 
值 只 是 一 个 浮 点 数 ， 为 了 得 到 二 值 分 类 结果 还 需要 调用 sign () 函数 。 如 果 总 错误 率 为 0， 则 由 
break 语 句 中 止 for 循 环 。 

接 下 来 我 们 观察 一 下 中 间 的 运行 结果 。 还 记得 吗 , 数据 的 类 别 标签 为 [1.0, 1.0,-1.0,-1.0, 1.0]。 
在 第 一 轮 迭 代 中 ，D 中 的 所 有 值 都 相等 。 于 是 ， 只 有 第 一 个 数据 点 被 错 分 了 。 因 此 在 第 二 轮 迄 代 
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中 , DD 向 量 给 第 一 个 数据 点 0.5 的 权重 。 这 就 可 以 通过 变量 aggclassEst 的 符号 来 了 解 总 的 类 别 。 

第 二 次 迭代 之 后 , 我 们 就 会 发 现 第 一 个 数据 点 已 经 正确 分 类 了 , 但 此 时 最 后 一 个 数据 点 却 是 错 分 

了 。DD 向 量 中 的 最 后 一 个 元 素 变 成 0.5， 而 D 向 量 中 的 其 他 值 都 变 得 非常 小 。 最 后 ， 第 三 次 迷 代 之 

后 aggclassEst 所 有 值 的 符号 和 真实 类 别 标签 都 完全 吻合 , 那么 训练 错误 率 为 0, 程序 就 此 退出 。 
为 了 观察 classifierArray 的 值 ， 键 入 : 


>>> ClassifierArray 
[{'dim': 0, 'ineq':; 'lt', 'thresh': 1.3, 'alpha': 0.69314718055994529}, 
{'dim': 1, 'ineq': 'lt', 'thresh': 1.0, 'alpha': 0.9729550745276565}), 
{'dim': 0,'ineq': ‘'1lt', 'thresh': 0.90000000000000002, 'alpha': 
0.89587973461402726}] 


该 数组 包含 三 部 词典 , 其 中 包含 了 分 类 所 需要 的 所 有 信息 。 此 时 , 一 个 分 类 器 已 经 构建 成 功 ， 
而 且 只 要 我 们 愿意 ， 随 时 都 可 以 将 训练 错误 率 降 到 0。 那 么 测试 错误 率 会 如 何 呢 ? 为 了 观察 测试 
错误 率 ， 我 们 需要 编写 分 类 的 一 些 代 码 。 下 一 节 我 们 将 讨论 分 类 。 


7.5 ”测试 算法 基于 AdaBoost 的 分 类 


一 旦 拥有 了 多 个 弱 分 类 器 以 及 其 对 应 的 alpha 值 , 进行 测试 就 变 得 相当 容易 了 。 在 程序 清单 7-2 
的 adaBoostTrainDs() 中 ,我 们 实际 已 经 写 完 了 大 部 分 的 代码 。 现 在 ,需要 做 的 就 只 是 将 弱 分 
类 器 的 训练 过 程 从 程序 中 抽出 来 , 然后 应 用 到 某 个 具体 的 实例 上 去 。 每 个 弱 分 类 咒 的 结果 以 其 对 
应 的 atpha 值 作为 权重 。 所 有 这 些 弱 分 类 器 的 结果 加 权 求 和 就 得 到 了 最 后 的 结果 。 在 程序 清单 7-3 
中 列 出 了 实现 这 一 过 程 的 所 有 代码 。 然 后 ， 6 py 中 ， 就 可 以 利用 它 基于 
adaboostTrainDs () 中 的 弱 分 类 器 对 数据 进行 分 类 。 


程序 清单 7-3 AdaBoost 分 类 函数 


def adaClassify(datToClass,classifierArr).: 
dataMatrix = mat (datToClass) 
m = shape (dataMatrix) [0] 
aggCiassEst = mat (zeros((m,1))) 
for i in range (len(classifierArr)): 

ClassEst = stumpClassify(dataMatrix,classifierArr[i] ['dim'],\ 
classifierArr {i] ['thresh'],\ 
classifierArr {i}{['ineg']) 

aggClassEst += classifierArr[i] ['alpha']*classEst 

print aggClassEst 
return signl(aggClassEst) 


读者 也 许可 以 猜 到 ， 上 述 的 adaclassify () 函数 就 是 利用 训练 出 的 多 个 弱 分 类 器 进行 分 类 
的 函数 。 该 函数 的 输入 是 由 一 个 或 者 多 个 待 分 类 样 例 aatmroclass 以 及 多 个 弱 分 类 器 组 成 的 数组 
classifieraArzr。 困 数 adqaclassify() 首 先 将 aatToclass 转 换 成 了 一 个 NumPy 和 矩阵 ， 并 且 得 
到 aatroclass 中 的 待 分 类 样 例 的 个 数 m。 然 后 构建 一 个 0 列 向 量 aggclassEst， 这 个 列 向 量 与 
adaBoostTrainDs () 中 的 含义 一 样 。 
按 下 来 , 遍历 classifierarr 中 的 所 有 弱 分 类 器 ,并 基于 stumpclassify() 对 每 个 分 类 器 
得 到 一 个 类 别 的 估计 值 。 在 前 面 构 建 单 层 决策 树 时 ， 我 们 已 经 见 过 了 stumpclassify () 函数 ， 
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在 那里 ,我 们 在 所 有 可 能 的 树桩 值 上 进行 迭代 来 得 到 具有 最 小 加 权 错 误 率 的 单 层 决策 树 。 而 这 里 
我 们 只 是 简单 地 应 用 了 单 层 决策 树 ,输出 的 类 别 估计 值 乘 上 该 单 层 决策 树 的 alpha 权 重 然后 累加 到 
aggClassEst 上 ， 就 完成 了 这 一 过 程 。 上 述 程序 中 加 入 了 一 条 print 语 句 ， 以 便 我 们 了 解 
aggClassEst 每 次 欠 代 后 的 变化 结果 。 最 后 ， 程 序 返 回 aggclassEst 的 符号 ， 即 如 果 
aggClassEst 大 于 0 则 返回 +1， 而 如 果 小 于 0 则 返回 -1。 

我 们 再 看 看 实际 中 的 运行 效果 。 加 入 程序 清单 7-3 中 的 代码 之 后 ， 在 Python 提示 符 下 输入 ， 


>>> reload(adaboost) 
<module 'adaboost' from 'adaboost.py'> 


如 果 没 有 弱 分 类 器 数组 ， 可 以 输入 如 下 命令 ; 


>>> datArr,1labelArr=adaboost ,1oadSimppata() 
>>> classifierArr = adqaboost ,adaBoostTrainDS (datArr, labelArr, 30) 


于 是 ， 可 以 输入 如 下 命令 进行 分 类 ， 


>>> adaboost .adaClassify([0，01,classifierArr) 
[[-0.69314718]] 
[[-1.66610226]] 
[[-2.56198199]] 
matrix({[[-1.]]) 


可 以 发 现 ， 随 着 迭代 的 进行 ， 数 据点 [0,0] 的 分 类 结 吉 果 越 来 越 强 。 当 然 , 我 们 也 可 以 在 其 他 点 上 进 
行 分 类 ， 


>>> adaboost .adqaClassitfty([[5，5],[0,0]],classifierRArr) 
[[ 0.69314718] 


[-2.56198199]] 
matrix{[[ 1.], 


[-1.1]) 
这 两 个 点 的 分 类 结果 也 会 随 着 迭代 的 进行 而 越 来 越 强 。 在 下 一 节 中 , 我 们 会 将 该 分 类 器 应 用 
到 一 个 规模 更 大 、 难 度 也 更 大 的 真实 数据 集中 。 


7.6 示例 : 在 一 个 难 数据 集 上 应 用 AdaBoost 


本 节 我 们 将 在 第 4 章 给 出 的 马 疝 病 数据 集 上 应 用 AdaBoost 分 类 器 。 在 第 4 章 ， 我 们 曾经 利用 
Logistic 回 归来 预测 患 有 疝 病 的 马 是 否 能 够 存活 。 而 在 本 节 ， 我 们 则 想 要 知道 如 果 利 用 多 个 单 层 
决策 树 和 AdaBoost 能 不 能 预测 得 更 准 。 


“示人 在 一 个 难 数据 集 上 的 ANqBgbst 训 用 
(1) 收集 数据 ， 提供 的 文本 文件 。 

(2) 准备 数据 ; 确保 类 别 标签 是 +1 和 -1 而 非 1 和 0。 

(3) 分 析 数 据 ; 手工 检查 数据 。 

(4) 训练 算法 : 在 数据 上 ， 利 用 adaBoostTrainDS () 函数 训练 出 一 系列 的 分 类 器 。 
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(5) 测试 算法 : 我 们 拥有 两 个 数据 集 。 在 不 采用 随机 抽样 的 方法 下 ， 我 们 就 会 对 AdaBoost 
和 Logistic 回 归 的 结果 进行 完全 对 等 的 比较 。 

(6) 使 用 算法 : 观察 该 例子 上 的 错误 率 。 不 过 ， 也 可 以 构建 一 个 Web 网 站 ， 让 驯 马 师 输 入 
马 的 症状 然后 预测 马 是 否 会 死去 。 


在 使 用 上 述 程序 清单 中 的 代码 之 前 ， 必 须要 有 向 文件 中 加 载 数 据 的 方法 。 一 个 常见 的 
loadDataset () 的 程序 如 下 所 示 。 


程序 清单 7-4 ” 自 适 应 数据 加 载 函数 


def loadDataSset (fileName): 
numFeat = lenl(open(fileName) .readline() .split('\t')) 
dataMat = {[]; labelMat = [] 
fr = open (fileName) 
for line in fr.readlines(): 
linearr = 人 
curDine = line.strip() .split('\t') 
for i in range (numFeat-1): 
lineArr.append (float (curLine [i])) 
dataMat .append (lineArr) 
| labelMat .append (float (curLine[-1])) 
1 return dataMat, labelMat 


之 前 ,读者 可 能 多 次 见 过 了 上 述 程 序 清单 中 的 lo0adDataset () 函数 。 在 这 里 ， 并 不 必 指定 
每 个 文件 中 的 特征 数目 ,所 以 这 里 的 函数 与 前 面 的 稍 有 不 同 。 该 函数 能 够 自动 检测 出 特征 的 数目 。 
同时 ， 该 函数 也 假定 最 后 一 个 特征 是 类 别 标签 。 

将 上 述 代码 添加 到 aqaboost .py 文件 中 并 且 将 其 保存 之 后 ， 就 可 以 输入 如 下 命令 来 使 用 上 
述 函 数 : . 

>>> datArr, labelArr = adaboost .loadDataSet ('horseColicTraining2.txt':) 

>>> ClassifierArray = adaboost .adaBoostTrainDs (datArr, labelArr,10) 


total error: 0.284280936455 
total error: 0.284280936455 








total error: 0.230769230769 

>>> testArr,testLabelArr = adaboost.loadDataSet ('horseColicTest2.txt') 
>>> prediction10 = adaboost .adaClassify (testArr,classifierArray) 

To get the number of misclassified examples type in: 

>>> errArr=mat (ones ((67,1))) 

>>> errArr [prediction10!=mat (testLabelArr) .T] .sum() 

16.0 


要 得 到 错误 率 ， 只 需 将 上 述 错 分 样 例 的 个 数 除 以 67 即 可 。 

| 将 弱 分 类 器 的 数目 设 定 为 1 到 10 000 之 间 的 几 个 不 同 数字 ， 并 运行 上 述 过 程 。 这 时 ， 得 到 的 
结果 就 会 如 表 7-1 所 示 。 在 该 数据 集 上 得 到 的 错误 率 相当 低 。 如 果 没 忘 的 话 ， 在 第 5 章 中 ， 我 们 在 
| 同一 数据 集 上 采用 Logistic 回 归 得 到 的 平均 错误 率 为 0.35。 而 采用 AdaBoost, 得 到 的 错误 率 就 永远 
不 会 那么 高 了 。 从 表 中 可 以 看 出 ， 我 们 仅仅 使 用 50 个 弱 分 类 器 ， 就 达到 了 较 高 的 性 能 。 
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表 7-1 不 同 弱 分 类 器 数目 情况 下 的 AdaBoost 测 试 和 分 类 错误 率 。 该 数据 集 是 个 难 数据 集 。 通 党 
情况 下 ，AdaBoost 会 达到 一 个 稳定 的 测试 错误 率 ， 而 并 不 会 随 分 类 器 数目 的 增多 而 提高 








分 类 器 数目 训练 错误 率 〈%) 测试 错误 率 〈(%) 
1 0.28 0.27 
10 0.23 0.24 
50 0.19 0.21 
100 0.19 0.22 
500 0.16 ， 025 
1000 0.14 0.31 
10000 0.11 0.33 


观察 表 7-1 中 的 测试 错误 率 一 栏 ， 就 会 发 现 测试 错误 率 在 达到 了 一 个 最 小 值 之 后 又 开始 上 升 
了 。 这 类 现象 称 之 为 过 拟 合 ( overfitting， 也 称 过 学 习 )。 有 文献 声称 ， 对 于 表现 好 的 数据 集 ， 
AdaBoost 的 测试 错误 率 就 会 达到 一 个 稳定 值 ， 并 不 会 随 着 分 类 器 的 增多 而 上 升 。 或 许 在 本 例子 中 
的 数据 集 也 称 不 上 “表现 好 ”。 该 数据 集 一 开始 有 30% 的 缺失 值 ， 对 于 Logistic 回 归 而 言 ， 这 些 缺 
失 值 的 假设 就 是 有 效 的 ， 而 对 于 决策 树 却 可 能 并 不 合适 。 如 果 回 到 数据 集 ， 将 所 有 的 0 值 替 换 成 
其 他 值 ， 或 者 给 定 类 别 的 平均 值 ， 那 么 能 否 得 到 更 好 的 性 能 ? 

很 多 人 都 认为 , AdaBoost 和 SVM 是 监督 机 器 学 习 中 最 强大 的 两 种 方法 。 实 际 上 , 这 两 者 之 间 
拥有 不 少 相 似 之 处 。 我 们 可 以 把 弱 分 类 器 想象 成 SVM 中 的 一 个 核 了 吗 数 , 也 可 以 按照 最 大 化 某 个 最 
小 间隔 的 方式 重 写 AdaBoost 算 法 。 而 它们 的 不 同 就 在 于 其 所 定义 的 间隔 计算 方式 有 所 不 同 , 因此 
导致 的 结果 也 不 同 。 特 别 是 在 高 维 空间 下 ， 这 两 者 之 间 的 差异 就 会 更 加 明显 。 

在 下 一 节 中 ， 我 们 不 再 讨论 AdaBoost， 而 是 转 而 关注 所 有 分 类 器 中 的 一 个 普遍 问题 。 


7.7” 非 均衡 分 类 问题 


在 我 们 结束 分 类 这 个 主题 之 前 ， 还 必须 讨论 一 个 问题 。 在 前 面 六 章 的 所 有 分 类 介绍 中 ， 
我 们 都 假设 所 有 类 别 的 分 类 代价 是 一 样 的 。 例 如 在 第 5 章 ， 我 们 构建 了 一 个 用 于 检测 患 疝 病 的 
马匹 是 否 存活 的 系统 。 在 那里 ， 我 们 构建 了 分 类 器 ， 但 是 并 没有 对 分 类 后 的 情形 加 以 讨论 。 
假如 某 人 给 我 们 牵 来 一 匹 马 ， 他 希望 我 们 能 预测 这 匹 马 能 否 生存 。 我 们 说 马 会 死 ， 那 么 他 们 
就 可 能 会 对 马 实施 安乐 死 ， 而 不 是 通过 给 马 喂 药 来 延缓 其 不 可 避免 的 死亡 过 程 。 我 们 的 预测 
也 许 是 错误 的 , 马 本 来 是 可 以 继续 活着 的 。 毕竟 , 我 们 的 分 类 器 只 有 80% 的 精确 率 ( accuracy )。 
如 果 我 们 预测 错误 ， 那 么 我 们 将 会 错 杀 了 一 个 如 此 昂贵 的 动物 ， 更 不 要 说 人 对 马 还 存在 情感 
上 的 依恋 。 

如 何 过 滤 垃 圾 邮件 呢 ? 如 果 收 件 箱 中 会 出 现 某 些 垃圾 邮件 , 但 合法 邮件 永远 不 会 扔 进 垃圾 邮 
件 夹 中 , 那么 人 们 是 否 会 满意 呢 ? 癌症 检测 又 如 何 呢 ?” 只 要 上 患 病 的 人 不 会 得 不 到 治疗 ,那么 再 找 
一 个 医生 来 看 看 会 不 会 更 好 呢 ( 即 情愿 误 判 也 不 漏 判 ) ? 

还 可 以 举 出 很 多 很 多 这 样 的 例子 ,坦白 地 说 , 在 大 多 数 情 况 下 不 同类 别 的 分 类 代价 并 不 相等 。 
在 本 节 中 , 我 们 将 会 考察 一 种 新 的 分 类 器 性 能 度量 方法 , 并 通过 图 像 技术 来 对 在 上 述 非 均衡 问题 
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下 不 同 分 类 器 的 性 能 进行 可 视 化 处 理 。 然 后 , 我们 考察 这 两 种 分 类 器 的 变换 算法 ， 它 们 能 够 将 不 
同 决策 的 代价 考虑 在 内 。 


7.7.1 其 他 分 类 性 能 度量 指标 : 正确 率 、 召 回 率 及 ROC 曲线 


到 现在 为 止 , 本 书 都 是 基于 错误 率 来 衡量 分 类 器 任务 的 成 功 程度 的 。 错误 率 指 的 是 在 所 有 测 
试 样 例 中 错 分 的 样 例 比 例 。 实 际 上 ,这 样 的 度量 错误 掩盖 了 样 例如 何 被 分 错 的 事实 。 在 机 器 学 习 
中 ， 有 一 个 普遍 适用 的 称 为 混 消 算 阵 (confusion matrix ) 的 工具 ， 它 可 以 帮助 人 们 更 好 地 了 解 分 
类 中 的 错误 。 有 这 样 一 个 关于 在 房子 周围 可 能 发 现 的 动物 类 型 的 预测 ， 这 个 预测 的 三 类 问题 的 混 
淆 矩阵 如 表 7-2 所 示 。 


表 7-2 ”一 个 三 类 问题 的 混淆 矩阵 









预测 结果 





狗 猫 鼠 
狗 24 2 5 
真实 结果 猫 2 27 0 


2 


利用 混淆 矩阵 就 可 以 更 好 地 理解 分 类 中 的 错误 了 。 如 果 和 矩阵 中 的 非 对 角 元 素 均 为 0， 就 会 得 
到 一 个 完美 的 分 类 器 。 

接 下 来 ,我 们 考虑 另外 一 个 混淆 矩阵 ， 这 次 的 矩阵 只 针对 一 个 简单 的 二 类 问题 。 在 表 7-3 中 ， 
给 出 了 该 混淆 矩阵 。 在 这 个 二 类 问题 中 ， 如 果 将 一 个 正 例 判 为 正 例 ， 那 么 就 可 以 认为 产生 了 一 个 
真正 例 (True Positive，TP， 也 称 真 阳 ); 如 果 对 一 个 反例 正确 地 判 为 反例 ， 则 认为 产生 了 一 个 真 
反例 (True Negative，TN, 也 称 真 阴 )。 相 应 地 , 另外 两 种 情况 则 分 别称 为 伪 反 例 ( False Negative， 
FN， 也 称 假 阴 ) 和 伪 正 例 ( False Positive，FP， 也 称 假 阳 )。 这 4 种 情况 如 表 7-3 所 示 。 


表 7-3 ”一 个 二 类 问题 的 混淆 矩阵 ， 其 中 的 输出 采用 了 不 同 的 类 别 标签 
预测 结果 

+1 一 ! 
真正 例 .( TP ) 伪 反 例 (FN ) 
伪 正 例 (FP ) 真 反例 (TN) 














在 分 类 中 ， 当 某 个 类 别 的 重要 性 高 于 其 他 类 别 时 ， 我 们 就 可 以 利用 上 述 定义 来 定义 出 多 个 比 错 
误 率 更 好 的 新 指标 。 第 一 个 指标 是 正确 率 (Precision )， 它 等 于 TP/TP+FP)， 给 出 的 是 预测 为 正 例 的 
样本 中 的 真正 正 例 的 比例 。 第 二 个 指标 是 召回 率 ( Recall )， 它 等 于 TP/TP+FN)， 给 出 的 是 预测 为 正 
例 的 真实 正 例 占 所 有 真实 正 例 的 比例 。 在 召回 率 很 大 的 分 类 器 中 ， 真 正 判 错 的 正 例 的 数目 并 不 多 。 

我 们 可 以 很 容易 构造 一 个 高 正确 率 或 高 召回 率 的 分 类 器 , 但 是 很 难 同 时 保证 两 者 成 立 。 如 果 
将 任何 样本 都 判 为 正 例 , 那么 召 回 率 达 到 百分之百 而 此 时 正确 率 很 低 。 构建 一 个 同时 使 正确 率 和 
召回 率 最 大 的 分 类 器 是 具有 挑战 1 性 的 。 
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另 一 个 用 于 度量 分 类 中 的 非 均衡 性 的 工具 是 ROC 曲 线 (ROC curve ), ROC 代 表 接 收 者 操作 特 
征 (receiver operating characteristic )， 它 最 早 在 二 战 期 间 由 电气 工程 师 构 建 雷 达 系 统 时 使 用 过 。 
图 7-3 给 出 了 一 条 ROC 曲 线 的 例子 。 


AdaBoost 马 疝 病 检测 系统 的 ROC 曲 线 
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图 7-3 ”利用 10 个 单 层 决策 树 的 AdaBoost 马 疝 病 检测 系统 的 ROC 曲 线 


在 图 7-3 的 ROC 曲 线 中 , 给 出 了 两 条 线 , 一 条 虚线 一 条 实 线 。 图 中 的 横 轴 是 伪 正 例 的 比例 ( 假 
阳 率 =FP/(FP+TN) )， 而 纵 轴 是 真正 例 的 比例 ( 真 阳 率 =TPMTP+FN) )。ROC 曲 线 给 出 的 是 当 阔 值 
变化 时 假 阳 率 和 真 阳 率 的 变化 情况 。 左 下 角 的 点 所 对 应 的 是 将 所 有 样 例 判 为 反例 的 情况 , 而 右上 
角 的 点 对 应 的 则 是 将 所 有 样 例 判 为 正 例 的 情况 。 虚 线 给 出 的 是 随机 猜测 的 结果 曲线 。 : 

ROC 曲 线 不 但 可 以 用 于 比较 分 类 器 ， 还 可 以 基于 成 本 效益 〈cost-versus-benefit ) 分 析 来 做 出 
决策 。 由 于 在 不 同 的 阐 值 下 , 不 同 的 分 类 器 的 表现 情况 可 能 各 不 相同 ， 因 此 以 某 种 方式 将 它们 组 
合 起 来 或 许 会 更 有 意义 。 如 果 只 是 简单 地 观察 分 类 器 的 错误 率 , 那么 我 们 就 难以 得 到 这 种 更 深入 
的 洞察 效果 了 。 

在 理想 的 情况 下 , 最 佳 的 分 类 器 应 该 尽 可 能 地 处 于 左上 角 , 这 就 意味 着 分 类 器 在 假 阳 率 很 低 
的 同时 获得 了 很 高 的 真 阳 率 。 例如 在 垃圾 邮件 的 过 滤 中 ,这 就 相当 于 过 滤 了 所 有 的 垃圾 邮件 , 但 
没有 将 任何 合法 邮件 误 识 为 垃圾 邮件 而 放 入 垃圾 邮件 的 文件 夹 中 。 

对 不 同 的 ROC 曲 线 进行 比较 的 一 个 指标 是 曲线 下 的 面积 ( Area Unser the Curve, AUC )。AUC 
给 出 的 是 分 类 器 的 平均 性 能 值 ， 当 然 它 并 不 能 完全 代替 对 整 条 曲线 的 观察 。 一 个 完美 分 类 器 的 
AUC 为 1.0， 而 随机 猜测 的 AUC 则 为 0.5。 

为 了 画 出 ROC 曲 线 , 分 类 器 必须 提供 每 个 样 例 被 判 为 阳性 或 者 阴性 的 可 信 程 度 值 。 尽 管 大 多 
数 分 类 器 都 能 做 到 这 一 点 ， 但 是 通常 情况 下 ， 这 些 值 会 在 最 后 输出 离散 分 类 标签 之 前 被 清除 。 朴 
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素 贝 叶 斯 能 够 提供 一 个 可 能 性 ， 而 在 Logistic 回 归 中 输入 到 Sigmoid 函 数 中 的 是 一 个 数值 。 在 
AdaBoost 和 SVM 中 ， 都 会 计算 出 一 个 数值 然后 输入 到 sign () 函数 中 。 所 有 的 这 些 值 都 可 以 用 于 
衡量 给 定 分 类 器 的 预测 强度 。 为 了 创建 ROC 曲 线 ， 首 先 要 将 分 类 样 例 按 照 其 预测 强度 排序 。 先 从 
排名 最 低 的 样 例 开 始 , 所 有 排名 更 低 的 样 例 都 被 判 为 反例 , 而 所 有 排名 更 高 的 样 例 都 被 判 为 正 例 。 
该 情况 的 对 应 点 为 <1.0,1.0>。 然 后 ， 将 其 移 到 排名 次 低 的 样 例 中 去 ， 如 果 该 样 例 属于 正 例 ， 那 么 
对 真 阳 率 进行 修改 ; 如果 该 样 例 属于 反例 ， 那 么 对 假 阴 率 进行 修改 。 

上 述 过 程 听 起 来 有 点 容易 让 人 混淆 ， 但 是 如 果 阅 读 一 下 程序 清单 7-5 中 的 代码 ， 一 切 就 会 变 
得 一 目 了 然 了 。 打 开 adaboost py 文件 并 加 入 如 下 代码 。 


程序 清单 7-5_ROC 有 曲线 的 绘制 及 AUC 计 算 函 数 


def plotROC (PredqStrengths，classLabels) : 
import matplotlib.pyplot as plt 
cur = (1.0,1.0) 
ySum = 0.0 
numposClas = suml(array (classLabels)==1.0) 
yStep = 1/float (numPosClas) 
xStep = 1/float (len(classLabels) -numposClas) .9 获取 排 好 序 的 索引 
sortedIindicies = predStrengths.argsort () 
fig = plt.figure() 
fig.c1if() 
ax = plt.subplot (111) 
for index in sortedIindicies.tolist() [0]: 
if classLabels[index] == 1.0: 
delX = 0; delY = ystep; 
else: 
delX = xStep; delY = 0; 
YSum += cur[1] 
ax.plot ({cur{0] ,cur[0] -delx], [cur [1] ,cur[1] -delY], c='b') 
cur = (cur[0] -delx,cur{1] -delY) 
ax.plot ([0,1], [0,1],'b--') 
plt.xlabel ('False Positive Rate'); plt.ylabel('True Positive Rate') 
plt.title('ROC curve for AdaBoost Horse Colic Detection System') 
ax.axis([0,1,0,1]) 
plt .show() 
print "the Area Under the Curve is: '‘,ySum*xStep 


上 述 程序 中 的 函数 有 两 个 输入 参数 , 第 一 个 参数 是 一 个 NumPy 数 组 或 者 一 个 行 向 量 组 成 的 矩 
阵 。 该 参数 代表 的 则 是 分 类 器 的 预测 强度 。 在 分 类 器 和 训练 函数 将 这 些 数 值 应 用 到 sign ( ) 函数 
之 前 , 它们 就 已 经 产生 了 。 尽 管 很 快 就 可 以 看 到 该 函数 的 实际 执行 效果 , 但 是 我 们 还 是 要 先 讨论 
一 下 这 段 代 码 。 函 数 的 第 二 个 输入 参数 是 先前 使 用 过 的 classLabels。 我 们 首先 导入 pyplot， 
然后 构建 一 个 浮 点 数 二 元 组 ， 并 将 它 初始 化 为 (1,0,1.0)。 该 元 组 保留 的 是 绘制 光标 的 位 置 ， 变 量 
ysum 则 用 于 计算 AUC 的 值 。 接 下 来 ,通过 数组 过 滤 方 式 计算 正 例 的 数目 ， 并 将 该 值 赋 给 
numPosClas。 该 值 先 是 确定 了 在 y 坐 标 轴 上 的 步 进 数 目 ， 接 着 我 们 在 x 轴 和 y 轴 的 0.0 到 1.0 区 间 上 
绘 点 ， 因 此 y 轴 上 的 步 长 是 1.0/numPosClas。 类 似 地 ， 就 可 以 得 到 x 轴 的 步 长 了 。 

接 下 来 , 我 们 得 到 了 排序 索引 @, 但 是 这 些 索 引 是 按照 最 小 到 最 大 的 顺序 排列 的 ， 因 此 我 们 
需要 从 点 <1.0,1.0> 开 始 绘 ， 一 直到 <0,0>。 跟 着 的 三 行 代码 则 是 用 于 构建 画笔 ， 并 在 所 有 排序 值 
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上 进行 循环 。 这些 值 在 一 个 NumPy 数 组 或 者 矩阵 中 进行 排序 ，Python 则 需要 一 个 表 来 进行 迭代 循 
环 ， 因 此 我 们 需要 调用 tolist () 方 法 。 当 遍历 表 时 ， 每 得 到 一 个 标签 为 1.0 的 类 ， 则 要 沿 着 y 轴 
的 方向 下 降 一 个 步 长 ， 即 不 断 降低 真 阳 率 。 类 似 地 ， 对 于 每 个 其 他 类 别 的 标签 ， 则 是 在 x 轴 方向 
上 倒退 了 一 个 步 长 〈 假 阴 率 方向 )。 上 述 代码 只 关注 1 这 个 类 别 标 签 ， 因 此 就 无 所 谓 是 采用 1/0 标 
签 还 是 +1/-1 标 签 。 

为 了 计算 AUC, 我 们 需要 对 多 个 小 矩形 的 面积 进行 累加 。 这 些小 矩形 的 宽度 是 xstep， 因 此 
可 以 先 对 所 有 矩形 的 高 度 进行 累加 ， 最 后 再 习 以 xstep 得 到 其 总 面积 。 所 有 高 度 的 和 ( ysum ) 随 
着 x 轴 的 每 次 移动 而 渐次 增加 。 一 旦 决定 了 是 在 x 轴 还 是 y 轴 方向 上 进行 移动 的 ， 我 们 就 可 以 在 当 
前 点 和 新 点 之 间 画 出 一 条 线段 。 然 后 ， 当 前 点 cur 更 新 了 。 最 后 ， 我 们 就 会 得 到 一 个 像样 的 绘图 
并 将 AUC 打 印 到 终端 输出 。 

了 解 实 际 运 行 效 果 ， 我 们 需要 将 adaboostTrainDs 1() 的 最 后 一 行 代码 替换 成 ， 


return weakClassArr,aggClassEst 


以 得 到 aggclassEst 的 值 。 然 后 ， 在 Python 提 示 符 下 键入 如 下 命令 : 


>>> reload (adaboost) . 
<module 'adaboost' from 'adaboost .pyc'> 
>>> datArr,labelArr = adqaboost ,loaqDataSet ('horseColicTraining2 .txt') 
>>> ClassifierArray,aggClassEst = 
adaboost .adaBoostTrainDs (datArr, labelArr, 10) 
>>> adaboost .plotROC (aggClasgsEst .T, JabelArr) 
the Area Under the Curve is: 0.858296963506 


我 们 也 会 了 解 到 和 图 7-3 一 样 的 ROC 曲 线 。 这 是 在 10 个 弱 分 类 器 下 ，AdaBoost 算 法 性 能 的 结 
果 。 我 们 还 记得 ， 当 初 我 们 在 40 个 弱 分 类 器 下 得 到 了 最 优 的 分 类 性 能 ， 那 么 这 种 情况 下 的 ROC 
曲线 会 如 何 呢 ? 这 时 的 AUC 是 不 是 更 好 呢 ? 


7.7.2 ”基于 代价 函数 的 分 类 器 决策 控制 


除了 调节 分 类 器 的 益 值 之 外 ， 我 们 还 有 一 些 其 他 可 以 用 于 处 理 非 均匀 分 类 代价 问题 的 方法 ， 
其 中 的 一 种 称 为 代价 敏感 的 学 习 〈 cost-sensitive leaming )。 考 虑 表 7-4 中 的 代价 矩阵 ， 第 一 张 表 给 
出 的 是 到 目前 为 上 分 类 器 的 代价 矩阵 (代价 不 是 0 就 是 1 )。 我 们 可 以 基于 该 代价 矩阵 计算 其 总 代 
价 : TP*0+FN*1+FP*1+TN*0。 接 下 来 我 们 考虑 下 面 的 第 二 张 表 ,基于 该 代价 矩阵 的 分 类 代价 的 
计算 公式 为 : TP* (-5)+FN*1+FP*50+TN*0。 采用 第 二 张 表 作为 代价 矩阵 时 ,两 种 分 类 错误 的 代 
价 是 不 一 样 的 。 类 似 地 ， 这 两 种 正确 分 类 所 得 到 的 收益 也 不 一 样 。 如 果 在 构建 分 类 器 时 ， 知 道 了 
这 些 代价 值 ， 那 么 就 可 以 选择 付出 最 小 代价 的 分 类 器 。 

在 分 类 算法 中 , 我 们 有 很 多 方法 可 以 用 来 引入 代价 信息 。 在 AdaBoost 中 ,可 以 基于 代价 函数 
来 调整 错误 权重 向 量 D。 在 杆 素 贝 叶 斯 中 ， 可 以 选择 具有 最 小 期 望 代 价 而 不 是 最 大 概率 的 类 别 作 
为 最 后 的 结果 。 在 SVM 中 ， 可 以 在 代价 函数 中 对 于 不 同 的 类 别 选择 不 同 的 参数 c。 上 述 做 法 就 会 
给 较 小 类 更 多 的 权重 ， 即 在 训练 时 ， 小 类 当中 只 允许 更 少 的 错误 。 
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表 7-4 ”一 个 二 类 问题 的 代价 矩阵 

















预测 结果 
+1 一 1 
十 1 0 1 
真实 结果 
一 1 0 
预测 结果 
' 十 一 ! 
| +1 5 1 
| 真实 结果 
一 1 50 0 


7.7.3 处理 非 均衡 问题 的 数据 抽样 方法 


另外 一 种 针对 非 均衡 问题 调节 分 类 器 的 方法 ， 就 是 对 分 类 器 的 训练 数据 进行 改造 。 这 可 以 通 
过 欠 抽 样 ( undersampling ) 或 者 过 抽样 ( oversampling ) 来 实现 。 过 抽样 意味 着 复制 样 例 ， 而 欠 
! 抽样 意味 着 删除 样 例 。 不 管 采用 哪 种 方式 , 数据 都 会 从 原始 形式 改造 为 新 形式 。 抽 样 过 程 则 可 以 
i 通过 随机 方式 或 者 某 个 预定 方式 来 实现 。 : . 
通常 也 会 存在 某 个 罕 匈 的 类 别 需 要 我 们 来 识别 ， 比 如 在 信用 卡 欺诈 当中 。 如 前 所 述 ， 正 例 类 
别 属于 罕见 类 别 。 我 们 希望 对 于 这 种 罕见 类 别 能 尽 可 能 保留 更 多 的 信息 ， 因 此 ,我 们 应 该 保留 正 
例 类 别 中 的 所 有 样 例 ， 而 对 反例 类 别 进行 欠 抽 样 或 者 样 例 删除 处 理 。 这 种 方法 的 一 个 缺点 就 在 于 
要 确定 哪些 样 例 需要 进行 噜 除 。 但 是 , 在 选择 剔除 的 样 例 中 可 能 携带 了 剩余 样 例 中 并 不 包含 的 有 
价值 信息 。 

上 述 问 题 的 一 种 解决 办 法 ， 就 是 选择 那些 离 决策 边界 较 远 的 样 例 进行 删 除 。 假 定 我 们 有 一 个 
数据 集 , 其 中 有 50 例 信用 卡 欺诈 交易 和 5000 例 合法 交易 。 如 果 我 们 想 要 对 合法 交易 样 例 进行 欠 抽 
样 处 理 ,使 得 这 两 类 数据 比较 均衡 的 话 ， 那么 我 们 就 需要 去 掉 4950 个 样 例 ， 而 这 些 样 例 中 可 能 包 
含 很 多 有 价值 的 信息 。 这 看 上 去 有 些 极端 , 因此 有 一 种 替代 的 策略 就 是 使 用 反例 类 别 的 欠 抽 样 和 
正 例 类 别 的 过 抽样 相 混合 的 方法 。 

要 对 正 例 类 别 进行 过 抽样 , 我们 可 以 复制 已 有 样 例 或 者 加 入 与 已 有 样 例 相 似 的 点 。 一 种 方法 
是 加 入 已 有 数据 点 的 插值 点 ， 但 是 这 种 做 法 可 能 会 导致 过 拟 合 的 问题 。 


7.8 本 章 小 结 


集成 方法 通过 组 合 多 个 分 类 器 的 分 类 结果 , 获得 了 比 简单 的 单 分 类 器 更 好 的 分 类 结果 。 有 一 
些 利用 不 同 分 类 器 的 集成 方法 ， 但 是 本 章 只 介绍 了 那些 利用 同一 类 分 类 器 的 集成 方法 。 

多 个 分 类 器 组 合 可 能 会 进一步 凸显 出 单 分 类 器 的 不 足 ， 比 如 过 拟 合 问题 。 如 果 分 类 器 之 间 差 
别 显 著 , 那么 多 个 分 类 器 组 合 就 可 能 会 缓解 这 一 问题 。 分 类 器 之 间 的 差别 可 以 是 算法 本 身 或 者 是 
应 用 于 算法 上 的 数据 的 不 同 。 
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本 章 介 绍 的 两 种 集成 方法 是 bagging 和 boosting。 在 bagging 中 ， 是 通过 随机 抽样 的 鞭 换 方式 ， 
得 到 了 与 原始 数据 集 规模 一 样 的 数据 集 。 而 boosting 在 bagging 的 思路 上 更 进 了 一 步 ， 它 在 数据 集 
上 顺序 应 用 了 多 个 不 同 的 分 类 器 。 另 一 个 成 功 的 集成 方法 就 是 随机 森林 , 但 是 由 于 随机 森林 不 如 
AdaBoost 流 行 ， 所 以 本 书 并 没有 对 它 进行 介绍 。 

本 章 介绍 了 boosting 方 法 中 最 流行 的 一 个 称 为 AdaBoost 的 算法 。AdaBoost 以 弱 学 习 器 作为 基 
分 类 器 ， 并 且 输 入 数据 ， 使 其 通过 权重 向 量 进 行 加 权 。 在 第 一 次 迭代 当中 ， 所 有 数据 都 等 权重 。 
但 是 在 后 续 的 迷 代 当中 ， 前 次 迭代 中 分 错 的 数据 的 权重 会 增 大 。 这 种 针对 错误 的 调节 能 力 正 是 
AdaBoost 的 长 处 。 

本 章 以 单 层 决 策 树 作为 弱 学 习 器 构建 了 AdaBoost 分 类 器 。 实际 上 ，AdaBoost 函 数 可 以 应 用 于 
任意 分 类 器 ， 只 要 该 分 类 器 能 够 处 理 加 权 数 据 即 可 。AdaBoost 算 法 十 分 强大 ， 它 能 够 快速 处 理 其 
他 分 类 器 很 难处 理 的 数据 集 。 

非 均衡 分 类 问题 是 指 在 分 类 器 训练 时 正 例 数 目 和 反例 数目 不 相等 《相差 很 大 )。 该 问题 在 错 
分 正 例 和 反例 的 代价 不 同时 也 存在 。 本 章 不 仅 考察 了 一 种 不 同 分 类 器 的 评价 方法 一 一 ROC 曲 线 ， 
还 介绍 了 正确 率 和 召回 率 这 两 种 在 类 别 重 要 性 不 同时 ， 度 量 分 类 器 性 能 的 指标 。 

本 章 介绍 了 通过 过 抽样 和 欠 抽 样 方法 来 调节 数据 集中 的 正 例 和 反例 数目 。 另 外 一 种 可 能 更 好 
的 非 均 衡 问题 的 处 理 方法 ， 就 是 在 训练 分 类 器 时 将 错误 的 代价 考虑 在 内 。 

到 目前 为 止 ,我 们 介绍 了 一 系列 强大 的 分 类 技术 。 本 章 是 分 类 部 分 的 最 后 一 章 ， 接 下 来 我 们 


将 进入 另 一 类 监督 学 习 算 法 回归 方法 ， 这 也 将 完善 我 们 对 监督 方法 的 学 习 。 回 归 很 像 分 类 ， 


但 是 和 分 类 输出 标 称 型 类 别 值 不 同 的 是 ， 回 归 方法 会 预测 出 一 个 连续 值 。 
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利用 回归 预测 数值 型 数据 





本 书 的 第 二 部 分 由 第 8 章 和 第 9 章 组 成 ， 主 要 介绍 了 回归 方法 。 回 归 是 第 1 ~ 7 章 的 监督 
学 习 方法 的 延续 。 前 面 说 过 ， 监 督学 习 指 的 是 有 目标 变量 或 预测 目标 的 机 器 学 习 方法 。 回 归 与 
分 类 的 不 同 ， 就 在 于 其 目标 变量 是 连续 数值 型 。 

第 8 章 介绍 了 线性 回归 、 局 部 加 权 线性 回归 和 收缩 方法 。 第 9 章 则 借用 了 第 3 章 树 构 建 的 
一 些 思想 并 将 其 应 用 于 回归 中 ， 从 而 得 到 了 树 回归 。 
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本 章 内 容 

口 线性 回归 

口 局 部 加 权 线 性 回归 

口 岭 回 归 和 逐步 线性 回归 
口 预测 鲍鱼 年 龄 和 玩具 售 价 


本 书 前 面 的 章节 介绍 了 分 类 , 分 类 的 目标 变量 是 标 称 型 数据 , 而 本 章 将 会 对 连续 型 的 数据 做 
出 预测 。 读 者 很 可 能 有 这 样 的 疑问 :“ 回 归 能 用 来 做 些 什么 呢 ?”。 我 的 观点 是 ， 回 归 可 以 做 任何 
事情 。 然 而 大 多 数 公司 常常 使 用 回归 法 做 一 些 比较 沉闷 的 事情 ,例如 销售 量 预 测 或 者 制造 缺陷 预 
测 。 我 最 近 看 到 一 个 比较 有 新 意 的 应 用 ， 就 是 预测 名 人 的 离婚 率 。 

本 章 首 先 介绍 线性 回归 ,包括 其 名 称 的 由 来 和 Python 实现 。 在 这 之 后 引 和 人 了 局 部 平滑 技术 ， 
分 析 如 何 更 好 地 拟 合 数据 。 接 下 来 ， 本 章 将 探讨 回归 在 “ 欠 拟 合 "情况 下 的 缩减 〈shrinkage ) 
技术 ,探讨 偏差 和 方差 的 概念 。 最 后 ,我们 将 融合 所 有 技术 ， 预 测 鲍 鱼 的 年 龄 和 玩具 的 售 价 。 
此 外 为 了 获取 一 些 玩具 的 数据 , 我 们 还 将 使 用 Python 来 做 一 些 采集 的 工作 。 这 一 章 的 内 容 会 十 
分 丰富 。 


8.1 用 线性 回归 找到 最 佳 拟 合 直线 


线性 回归 
优点 :结果 易于 理解 ， 计 算 上 不 复杂 。 
缺点 : 对 非 线性 的 数据 拟 合 不 好 。 
适用 数据 类 型 : 数值 型 和 标 称 型 数据 。 


回归 的 目的 是 预测 数值 型 的 目标 值 。 最 直接 的 办 法 是 依据 输入 写 出 一 个 目标 值 的 计算 公式 。 
假如 你 想 要 预测 姐姐 男友 汽车 的 功率 大 小 ， 可 能 会 这 么 计算 ， 


HorsePower = 0.0015*annualSalary -0.99*hoursListeningTopublicRadio 
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这 就 是 所 谓 的 回归 方程 (regression equation ), 其 中 的 0.0015 和 -0.99 称 作 回 归 系 数 ( regression 
weights )， 求 这 些 回归 系数 的 过 程 就 是 回归 。 一 旦 有 了 这 些 回归 系数 ， 再 给 定 输 入 ， 做 预测 就 非 
常 容易 了 。 有 具体 的 做 法 是 用 回归 系数 乘 以 输入 值 ， 再 将 结果 全 部 加 在 一 起 ， 就 得 到 了 预测 值 "。 

说 到 回归 ,一 般 都 是 指 线性 回归 (〈linearregression )， 所 以 本 章 里 的 回归 和 线性 回归 代表 同一 
个 意思 。 线性 回归 意味 着 可 以 将 输入 项 分 别 乘 以 一 些 常 量 , 再 将 结果 加 起 来 得 到 输出 。 需 要 说 明 
的 是 , 存在 男 一 种 称 为 非 线性 回归 的 回归 模型 , 该 模型 不 认同 上 面 的 做 法 ， 比 如 认为 输出 可 能 是 
输入 的 乘积 。 这 样 ， 上 面 的 功率 计算 公式 也 可 以 写 做 ; ， 

HorsePower = 0.001i5*annualSalary/hoursListeningToPublicRadio 


这 就 是 一 个 非 线性 回归 的 例子 , 但 本 章 对 此 不 做 深入 讨论 。 


回归 的 一 般 方法 本 

(1) 收集 数据 : 采用 任意 方法 收集 数据 。 

(2) 准备 数据 : 回归 需要 数值 型 数据 ， 标 称 型 数据 将 被 转 成 二 值 型 数据 。 

(3) 分 析 数 据 : 绘 出 数据 的 可 视 化 二 维 图 将 有 助 于 对 数据 做 出 理解 和 分 析 ， 在 采用 缩减 法 
求 得 新 回归 系数 之 后 ， 可 以 将 新 拟 合 线 绘 在 图 上 作为 对 比 。 

(4) 训练 算法 : 找到 回归 系数 。 

(5) 测试 算法 ; 使 用 R2 或 者 预测 值 和 数据 的 拟 合 度 ， 来 分 析 模 型 的 效果 。 

(6) 使 用 算法 : 使 用 回归 ， 可 以 在 给 定 输 入 的 时 候 预 测 出 一 个 数值 ， 这 是 对 分 类 方法 的 提 
升 ， 因 为 这 样 可 以 预测 连续 型 数据 而 不 仅仅 是 离散 的 类 别 标签 。 


“回归 ”一 词 的 来 历 

今天 我 们 所 知道 的 回归 是 由 达尔 文 ( Charles Darwin ) 的 表 兄 弟 Francis Galton 发 明 的 。Galton 
于 1877 年 完成 了 第 一 次 回归 预测 ， 目 的 是 根据 上 一 代 吏 豆 种 子 ( 双亲 ) 的 尺寸 来 预测 下 一 代 吏 
豆 种 子 ( 孩子 ) 的 尺寸 。Galton 在 大 量 对 象 上 应 用 了 回归 分 析 ， 其 至 包括 人 的 身高 。 他 注意 到 ， 
如 果 双 亲 的 高 度 比 平均 高 度 高 ,他们 的 子女 也 倾向 于 比 平均 高 度 高 , 但 尚 不 及 双亲 。 孩 子 的 高 
度 向 着 平均 高 度 回 退 (回归 )。Galton 在 多 项 研究 上 都 注意 到 这 个 现象 ， 所 以 尽管 这 个 英文 单 
词 跟 数 值 预测 没有 任何 关系 ， 但 这 种 研究 方法 仍 被 称 作 回归 @。 


应 当 怎样 从 一 大 堆 数 据 里 求 出 回归 方程 呢 ? 假定 输入 数据 存放 在 矩阵 x 中 ， 而 回归 系数 存放 
在 向 量 w 中 。 那 么 对 于 给 定 的 数据 x,， 预 测 结果 将 会 通过 Y,=x",w 给 出 。 现 在 的 问题 是 ， 手 里 有 一 
些 x 和 对 应 的 y， 怎 样 才能 找到 w 呢 ? 一 个 常用 的 方法 就 是 找 出 使 误差 最 小 的 w。 这 里 的 误差 是 指 
预测 y 值 和 真实 y 值 之 间 的 差 值 , 使 用 该 误差 的 简单 累加 将 使 得 正 差 值 和 负 差 值 相互 抵消 , 所 以 我 
们 采用 平方 误差 。 


QO 此 处 的 回归 系数 是 一 个 向 量 ， 输 入 也 是 向 量 ， 这 些 运 算 也 就 是 求 出 二 者 的 内 积 。 一 一 译 考 注 
人 @) Ian Ayres, Super Crunchers (Bantam Books, 2008), 24. 
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平方 误差 可 以 写 做 ， 
> -Ww)? 
用 短 隆 表示 还 可 以 写 做 (y_xw)"(y_xw) 。 如 果 对 w 求 导 ， 得 到 Xx"(Y-xw) , 令 其 等 于 零 , 解 出 
， w 如 下 : | 
: W=(X"X)" X'y 


w 上 方 的 小 标记 表示 ， 这 是 当前 可 以 估计 出 的 w 的 最 优 解 。 从 现 有 数据 上 估计 出 的 w 可 能 并 不 

是 数据 中 的 真实 w 值 ， 所 以 这 里 使 用 了 一 个 “ 帽 ” 符 号 来 表示 它 仅 是 w 的 一 个 最 佳 估计 。 

值得 注意 的 是 ， 上述 公式 中 包含 xx ， 也 就 是 需要 对 和 矩阵 求 着 ,因此 这 个 方程 只 在 逆 和 矩阵 存 
在 的 时 候 适 用 。 然 而 ， 矩 阵 的 逆 可 能 并 不 存在 ， 因 此 必须 要 在 代码 中 对 此 作出 判断 。 

上 述 的 最 佳 w 求 解 是 统计 学 中 的 常见 问题 ， 除 了 矩阵 方法 外 还 有 很 多 其 他 方法 可 以 解决 。 通 
过 调用 NumpPy 库 里 的 矩阵 方法 ， 我 们 可 以 仅 使 用 几 行 代码 就 完成 所 需 功能 。 该 方法 也 称 作 OLS， 
意思 是 “普通 最 小 二 乘法 ”( ordinary least squares )。 
下 面 看 看 实际 效果 ， 对 于 图 8-1 中 的 散 点 图 ， 下 面 来 介绍 如 何 给 出 该 数据 的 最 佳 拟 合 直线 。 








3, 
45 0.2 0.4 0.6 0.8 1.0 
1 Xx 


图 8-1 ”从 ex0.txt 得 到 的 样 例 数据 


程序 清单 8-1 可 以 完成 上 述 功能 。 打 开 文 本 编辑 器 并 创建 一 个 新 的 文件 regression py， 添 加 其 
中 的 代码 。 
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程序 清单 8-1 标准 回归 函数 和 数据 导入 函数 


from numpy import * 


def loadDataset (fileName): 
numFeat = lenl(open (fileName) .readline().split{'\t')) - 1 
dataMat = {]; labelMat = [] 
fr = open(fileName) 
for line in fr.readlines (): 
lineArr =[] 
curLine = line.strip() .split('\t':) 
for i in range (numFeat): 
lineArr.append (float (curLine [i])) 
dataMat .append (lineArr) 
labelMat .append (float (curLine[-1])) 
return dataMat, lapelMat 
def standRegres (xArr,yArr): 
xMat = mat (xArr); yMat = mat (yArr).T 
xTx = xMat.T*xMat 
if linalg.det (xTx) == 0.0: 
print "This matrix is singular, cannot do inverse" 
return 
WS = XTX.I * (xMat.T*yMat) 
return ws 


第 一 个 函数 loadDataset () 与 第 7 章 的 同名 函数 是 一 样 的 。 该 函数 打开 一 个 用 tab 键 分 隔 的 文 
本 文件 ， 这 里 仍然 默认 文件 每 行 的 最 后 一 个 值 是 目标 值 。 第 二 个 函数 stanqRegres () 用 来 计算 
最 佳 拟 合 直线 。 该 函数 首先 读 人 x 和 y 并 将 它们 保存 到 和 矩阵 中 ; 然后 计算 XX， 然 后 判断 它 的 行列 
式 是 否 为 零 ， 如果 行列 式 为 零 , 那么 计算 逆 矩 阵 的 时 候 将 出 现 错误 。NumPy 提 供 一 个 线性 代数 的 
库 linalg， 其 中 包含 很 多 有 用 的 函数 。 可 以 直接 调用 linalg.adet () 来 计算 行列 式 。 最 后 ， 如 果 行 
列 式 非 零 ， 计 算 并 返回 w。 如 果 没 有 检查 行列 式 是 否 为 零 就 试图 计算 矩阵 的 逆 ， 将 会 出 现 错误 。 
NumPy 的 线性 代数 库 还 提供 一 个 函数 来 解 未 知 和 矩阵 ， 如 果 使 用 该 函数 ， 那 么 代码 ws=xTx. 工 * 
(xMat , T*yMat) 应 写成 ws=linalg .Solve (xTx, xMat.T*yMatT)o。 

下 面 看 看 实际 效果 ， 使 用 loaapataset () 将 从 数据 中 得 到 两 个 数组 ， 分 别 存 放 在 x 和 y 中 。 
与 分 类 算法 中 的 类 别 标签 类 似 ， 这 里 的 y 是 目标 值 。 


>>> import regression 
>>> from numpy import * 
>>> XArr,yArr=regression.loadDataSet ('ex0 .txt') 


首先 看 前 两 条 数据 : 

>>> XArr[0:2] 

{[1.0, 0.067732000000000001], [1.0, 0.42781000000000002]] 
第 一 个 值 总 是 等 于 1.0， 即 x0。 我 们 假定 偏 移 量 就 是 一 个 常数 。 第 二 个 值 x1， 也 就 是 我 们 图 中 的 
横 坐 标 值 。 

现在 看 一 下 standRegres () 函数 的 执行 效果 ; 

>>> WS = regression.standRegres (xArr,yArr) 

>>> WS 


matrix([[ 3.00774324] ， 
[ 1.69532264]]) 
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变量 ws 存放 的 就 是 回归 系数 。 在 用 内 积 来 预测 y 的 时 候 ， 第 一 维 将 乘 以 前 面 的 常数 xX0， 第 二 
维 将 乘 以 输入 变量 x1t。 因 为 前 面 假定 了 xo=1， 所 以 最 终 会 得 到 y=ws [0] +ws [1] *X1。 这 里 的 y 
实际 是 预测 出 的 , 为 了 和 真实 的 y 值 区 分 开 来 , 我 们 将 它 记 为 YHat。 下 面 使 用 新 的 ws 值 计算 yHat 


xMat=mat (xArr) 
yMat=mat (yArr) 
yHat = xMat*ws 


现在 就 可 以 绘 出 数据 集散 点 图 和 最 佳 拟 合 直线 图 


Import matplotlib.pyplot as plt 

fig = plt,figure() 

ax = fig.add subplot (111) 

ax.scatter (xMat [:,1] .flatten() .A[0}, yMat.T[:,0] .flatten().A[0]) 
<matplotlib.collections.CircleCollection object at 0x04ED9D30> 


上 述 命 令 创 建 了 图 像 并 绘 出 了 原始 的 数据 。 为 了 绘制 计算 出 的 最 佳 拟 合 直线 , 需要 绘 出 yHat 
的 值 。 如 果 直 线 上 的 数据 点 次 序 混乱 ， 绘 图 时 将 会 出 现 问题 ， 所 以 首先 要 将 点 按照 升序 排列 ; 


| >>> XCopy=xMat .copy () 
: >>> XCopy .sort (0) 
>>> yHat=xCopy*ws 


>>> 


ax.plot (xCopy[:,1],yHat) 


[<matplotlib.lines.Line2D object at Ox0343F570>] 
>>> plt.show() 


我 们 将 会 看 到 类 似 于 图 8-2 的 效果 图 。 
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图 8-2 ”ex0.txt 的 数据 集 与 它 的 最 佳 拟 合 直 线 


几乎 任 一 数据 集 都 可 以 用 上 述 方法 建立 模型 ， 那 么 ， 如 何 判断 这 些 模型 的 好 坏 呢 ? 比较 一 下 图 
8-3 的 两 个 子 图 ， 如 果 在 两 个 数据 集 上 分 别 作 线性 回归 ， 将 得 到 完全 一 样 的 模型 〈 拟 合 直线 )。 显 然 
两 个 数据 是 不 一 样 的 , 那么 模型 分 别 在 二 者 上 的 效果 如 何 ? 我 们 当 如 何 比 较 这 些 效果 的 好 坏 呢 ? 有 


| 种 方法 可 以 计算 预测 值 yHat 序 列 和 真实 值 y 序 列 的 匹配 程度 ， 那 就 是 计算 这 两 个 序列 的 相关 系数 。 
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‘003 00- 0,2 0.4 0.6 0.8 1.0 1.2 
图 8-3 ”具有 相同 回归 系数 (0 和 2.0 ) 的 两 组 数据 。 上 图 的 相关 系数 是 0.58， 而 下 图 的 
相关 系数 是 0.99 


在 Python 中 ，NumPy 库 提供 了 相关 系数 的 计算 方法 : 可 以 通过 命令 corrcoef (yEstimate， | 
yActual) 来 计算 预测 值 和 真实 值 的 相关 性 。 下 面 我 们 就 在 前 面 的 数据 集 上 做 个 实验 。 
与 之 前 一 样 ， 首 先 计算 出 y 的 预测 值 yMat: 


>>> yHat = xMat*ws 


再 来 计算 相关 系数 ( 这 时 需要 将 yMat 转 置 ， 以 保证 两 个 向 量 都 是 行 向 量 )， 
>>> Corrcoef (yHat.T, yMat) 


array([[ 1. ， 0.98647356] ， 
[ 0.98647356， 1 工 ， ]]) 


该 矩阵 包含 所 有 两 两 组 合 的 相关 系数 。 可 以 看 到 ， 对 角 线 上 的 数据 是 1.0， 因 为 yMat 和 自己 的 匹 
配 是 最 完美 的 ， 而 YHat 和 yMat 的 相关 系数 为 0.98。 
最 佳 拟 合 直线 方法 将 数据 视 为 直线 进行 建 模 ， 具 有 十 分 不 错 的 表现 。 但 是 图 8-2 的 数据 当中 


en 那么 如 何 才能 利用 这 些 模式 呢 ? 我 们 可 以 根据 数据 来 局 部 调整 预 
， 下 面 就 会 介绍 这 种 方法 。 


8.2 局 部 加 权 线 性 回归 


线性 回归 的 一 个 问题 是 有 可 能 出 现 欠 拟 合 现象 ， 因 为 它 求 的 是 具有 最 小 均 方 误差 的 无 偏 估 
计 。 显 而 易 见 ， 如 果 模 型 从 拟 合 将 不 能 取得 最 好 的 预测 效果 。 所 以 有 些 方法 允许 在 估计 中 引入 一 
些 偏差 ， 从 而 降低 预测 的 均 方 误 着。 


mst ARE 
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其 中 的 一 个 方法 是 局 部 加 权 线性 回归 (Locally Weighted Linear Regression, LWLR )。 在 该 算 
法 中 ， 我 们 给 待 预测 点 附近 的 每 个 点 赋予 一 定 的 权重 ; 然后 与 8.1 节 类 似 ， 在 这 个 子 集 上 基于 最 
小 均 方 差 来 进行 普通 的 回归 。 与 KNN 一 样 , 这 种 算法 每 次 预测 均 需 要 事先 选取 出 对 应 的 数据 子 集 。 
该 算法 解 出 回归 系数 w 的 形式 如 下 : 





w=(XWX) XWy 


其 中 w 是 一 个 和 矩阵， 用 来 给 每 个 数据 点 赋予 权重 。 
LWLR 使 用 “ 核 ”( 与 支持 向 量 机 中 的 核 类 似 ) 来 对 附近 的 点 赋予 更 高 的 权重 ?。 核 的 类 型 可 
以 自由 选择 ， 最 常用 的 核 就 是 高 斯 核 ， 高 斯 核对 应 的 权重 如 下 : 











这 样 就 构建 了 一 个 只 含 对 角 元 素 的 权重 矩阵 w， 并 且 点 x 与 x (i) 越 近 ,，w (i,1) 将 会 越 大 。 上 
述 公式 包含 一 个 需要 用 户 指定 的 参数 k, 它 决定 了 对 附近 的 点 赋予 多 大 的 权重 , 这 也 是 使 用 LWLR 
时 唯一 需要 考虑 的 参数 ， 在 图 8-4 中 可 以 看 到 参数 k 与 权重 的 关系 。 
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图 8-4 每 个 点 的 权重 图 (假定 我 们 正 预测 的 点 是 x = 0.5) ,最 上 面 的 图 是 原始 数据 
集 , 第 二 个 图 显示 了 当 k = 0.5 时 ， 大 部 分 的 数据 都 用 于 训练 回归 模型 ， 而 最 
下 面 的 图 显示 当 k = 0.01 时 ， 仅 有 很 少 的 局 部 点 被 用 于 训练 回归 模型 


下 面 看 看 模型 的 效果 ， 打 开 文本 编辑 器 ， 将 程序 清单 8-2 的 代码 添加 到 文件 regression.py 中 。 





@ 读者 要 注意 区 分 这 里 的 权重 W 和 回归 系数 w， 与 RNN 一 样 ， 该 加 权 模 型 认为 样本 点 上 离 越 近 ， 越 可 能 符合 同一 个 
| 线性 模型 。 一 _ 译 者 注 
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程序 清单 8-2 局 部 加 权 线 性 回归 函数 


def lwlr(testPoint,xArr,yArr,k=1.0): 
XMat = mat (xArr); yMat = mat (yArr).T 


m = shape (xMat) [0] .9 创建 对 角 矩 阵 
weights = mat (eye{ (m))) 
for j in range (m) : 人 权重 值 大 小 以 指数 级 衰减 
diffMat = testpoint - xMat[j,:] 
weights ij,j] = exp(diffMat*diffMat.T/(-2.0*k**2)) 
XTX = XMat ,T * (weights * xMat) 
if linalg.det (xTx) == 0.0: 
print "This matrix is singular, cannot do inverse' 
return 


WwS = XTX.IT * (xMat.T * (weights * yMat)) 
return testPoint * ws 


def lwlrTest (testArr,xArr,yArr,k=1.0): 
m = Shape (testArr) [0] 
yHat = zeros (m) 
for i in range (m): 
yHat [i] = lwlr (testArr[i] ,xArr,yArr,k) 
return yHat 


程序 清单 8-2 中 代码 的 作用 是 ， 给 定 x 空间 中 的 任意 一 点 ， 计 算出 对 应 的 预测 值 yzHat 。 函 数 
lwlr() 的 开头 与 程序 清单 8-1 类 似 ,， 读 入 数据 并 创建 所 需 和 矩阵 ， 之 后 创建 对 角 权 重 矩 阵 
weights@@。 权 重 和 矩阵 是 一 个 方 阵 ， 阶 数 等 于 样本 点 个 数 。 也 就 是 说 ， 该 矩阵 为 每 个 样本 点 初始 
化 了 一 个 权重 。 接 着 , 算法 将 遍历 数据 集 , 计算 每 个 样本 点 对 应 的 权重 值 : 随 着 样本 点 与 待 预测 
点 距离 的 递增 ,权重 将 以 指数 级 衰减 @。 输 入 参数 k 控 制 衰减 的 速度 。 与 之 前 的 函数 stang- 
Regress () 一 样 ， 在 权重 矩阵 计算 完毕 后 ， 就 可 以 得 到 对 回归 系数 ws 的 一 个 估计 。 

程序 清单 8-2 中 的 另 一 个 函数 是 lwlrTest () ， 用 于 为 数据 集中 每 个 点 调用 lwlr () ， 这 有 助 
于 求解 k 的 大 小 。 

下 面 看 看 实际 效果 ， 将 程序 清单 8-2 的 代码 加 入 到 regression.py 中 并 保存 ， 然 后 在 Python 提示 
符 下 输入 如 下 命令 : 


>>> reload (regression) 
<module 'regression' from 'regression.py'> 


如 果 需 要 重新 载 人 数据 集 ， 则 输入 ， 
>>> XArr,yArr=regression.1loadDataSet('ex0 .txt') 
可 以 对 单 点 进行 估计 : 
>>> yArr [0] 
3.1765129999999999 
>>> regression,.1lwlr (xArr[0] ,xArr,yArr,1.0) 
matrix{([[ 3.12204471]1) 


>>> regression.1wlr (xArr[0] ,xArr,yArr,0.001) 
matrix([[ 3.20175729]]) 


为 了 得 到 数据 集 里 所 有 点 的 估计 ， 可 以 调用 1wlrTest () 函数 ， 


>>> YHat = regression,.lwlrTest (xArr, xArr, yArr,0.003) 
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下 面 绘 出 这 些 估 计 值 和 原始 值 ， 看 看 yHat 的 拟 合 效果 。 所 用 的 绘图 函数 需要 将 数据 点 按 序 
排列 ， 首 先 对 xarr 排 序 : 


xMat=mat (xArr) 
>>> srtIind = xMat[:,1] .argsort (0) 
>>> XSort=xMat [srtIind] {:,0,:] 


然后 用 Matplotlib 绘 图 : 


>>> import matplotlib.pyplot as plt 

>>> fig = plt.figure{) 

>>> ax = fig.add subplot (111) 

>>> ax.plot (xSort [:,1] ,yHat [srtInq] ) 

[<matplotlib.lines.Line2D object at 0x03639550>] 

>>> ax.scatter (xMat [:,1] .flatten{() .A[0], mat (yArr) .T.flatten().A[0] ,8s 
c='red') 

<matplotlib.collections.PathCollection object at 0x03859110> 

>>> plt.show() 


1 
MD 


可 以 观察 到 如 图 8-5 所 示 的 效果 。 图 8-5 给 出 了 Kk 在 三 种 不 同 取 值 下 的 结果 图 。 当 k= 1.0 时 权重 
很 大 ， 如 同 将 所 有 的 数据 视 为 等 权重 ， 得 出 的 最 佳 拟 合 直线 与 标准 的 回归 一 致 。 使 用 k = 0.01 得 
到 了 非常 好 的 效果 ， 抓 住 了 数据 的 潜在 模式 。 下 图 使 用 k=0.003 纳 入 了 太 多 的 噪声 点 ， 拟 合 的 直 
线 与 数据 点 过 于 贴近 。 所 以 ， 图 8-5 中 的 最 下 图 是 过 拟 合 的 一 个 例子 ， 而 最 上 图 则 是 欠 拟 合 的 一 
个 例子 。 下 一 节 将 对 过 拟 合 和 欠 拟 合 进 行 量 化 分 析 。 


5.0 二 























图 8-5 ”使 用 3 种 不 同 平滑 值 绘 出 的 局 部 加 权 线 性 回归 结果 。 上 图 中 的 平滑 参数 5=1.0， 
中 图 上 = 0.01， 下 图 k= 0.003。 可 以 看 到 ，k = 1.0 时 的 模型 效果 与 最 小 二 乘法 差 
不 多 ,k= 0.01 时 该 模型 可 以 挖 出 数据 的 潜在 规律 ， 而 k= 0.003 时 则 考虑 了 太 多 
的 噪声 ， 进 而 导致 了 过 拟 合 现象 
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局 部 加 权 线 性 回归 也 存在 一 个 问题 ， 即 增加 了 计算 量 ， 因 为 它 对 每 个 点 做 预测 时 都 必须 使 用 整 
个 数据 集 。 从 图 8-5 可 以 看 出 ，k=0.01 时 可 以 得 到 很 好 的 估计 , 但 是 同时 看 一 下 图 84 中 k= 0.01 的 情 
况 ， 就 会 发 现 大 多 数据 点 的 权重 都 接近 零 。 如 果 避 免 这 些 计算 将 可 以 减少 程序 运行 时 间 ， 从 而 缓解 
因 计 算 量 增加 带 来 的 问题 。 

到 此 为 止 ， 我 们 已 经 介绍 了 找 出 最 佳 拟 合 直线 的 两 种 方法 ， 下 面 用 这 些 技术 来 预测 鲍鱼 的 
年 龄 。 


8.3 ”示例 : 预测 鲍鱼 的 年 龄 


接 下 来 ， 我 们 将 回归 用 于 真实 数据 。 在 data 目 录 下 有 一 份 来 自 UCI 数 据 集合 的 数据 ， 记 录 了 
鲍鱼 〈 一 种 介壳 类 水 生动 物 ) 的 年 龄 。 鲍 鱼 年 龄 可 以 从 鲍鱼 壳 的 层 数 推算 得 到 。 
.在 regression.py 中 加 入 下 列 代 码 : 


def rssError (yArr,yHatArr): 
return ((yArr-yHatArr)**2) .sum() 


>>> abxX,abY=regression.]loadDataSet ('abalone.txt') 

>>> yHat0ol=regression.lwlrTest (abX [0:99] ,abxX[0:99] ,abY [0:99],0.1) 
>>> yHatl=regression,lwlrTest (abX[0:99] ,abxX[0:99] ,abY[0:99],1) 
>>> yHat10=regression.lwlrTest (abX[0:99] ,abX[0:99] ,abY[0:99],10) 


为 了 分 析 预 测 误差 的 大 小 ， 可 以 用 函数 rssError() 计 算出 这 一 指标 ; 


>>> regression.rssError (aby [0:99] ,yHat01.T) 
56.842594430533545 
>>> regression.rssError (abY[0:99] ,yHat1.T) 
429.89056187006685 
>>> regression.rssError(abYy [0:99] ,yHat10.T) 
549.11817088257692 


可 以 看 到 , 使 用 较 小 的 核 将 得 到 较 低 的 误差 那么 ,为 什么 不 在 所 有 数据 集 上 都 使 用 最 小 的 核 呢 ? 
这 是 因为 使 用 最 小 的 核 将 造成 过 拟 合 , 对 新 数据 不 一 定 能 达到 最 好 的 预测 效果 。 下 面 就 来 看 看 它 
们 在 新 数据 上 的 表现 ， 


>>> yHat01l=regression.lwlrTest (abX{100:199] ,abxX [0:99] ,abY[0:99] ,0.1) 

>>> regression.rssError(abY[100:199] ,yHat01.T) 

25619.926899338669 

>>> yHat1l=regression.]lwlrTest (abX[100:199] ,abX[0:99] ,abY[0:99],1) 

>>> regression.rssError (abY [100:199] ,yHat1.T) 

573.5261441895808 

>>> yHat1l0=regression.lwlrTest (abX[100:199] ,abxX{0:99] ,abY[0:99] ,10) 

>>> regression.rssError(abY{100:199],yHat10.T) 

517.57119053830979 


从 上 述 结果 可 以 看 到 ,在 上 面 的 三 个 参数 中 , 核 大 小 等 于 10 时 的 测试 误差 最 小 , 但 它 在 训练 
集 上 的 误差 却 是 最 大 的 。 接 下 来 再 来 和 简单 的 线性 回归 做 个 比较 ; 


>>> WS = regression.standRegres (abX[0:99] ,abY[0:99]) 
>>> yHat=mat (abX[100:199] )*ws 

>>> regression.rssError(abY[100:199] ,yHat.T.A) 
518.63631532450131 
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简单 线性 回归 达到 了 与 局 部 加 权 线 性 回归 类 似 的 效果 。 这 也 表明 一 点 ,必须 在 未 知 数据 上 比 
较 效 果 才能 选取 到 最 佳 模型 。 那 么 最 佳 的 核 大 小 是 10 吗 ? 或 许 是 , 但 如 果 想 得 到 更 好 的 效果 ， 应 
该 用 10 个 不 同 的 样本 集 做 10 次 测试 来 比较 结果 。 

本 例 展示 了 如 何 使 用 局 部 加 权 线 性 回归 来 构建 模型 ， 可 以 得 到 比 普通 线性 回归 更 好 的 效果 。 
局 部 加 权 线 性 回归 的 问题 在 于 ， 每 次 必须 在 整个 数据 集 上 运行 。 也 就 是 说 为 了 做 出 预测 ， 必 须 保 
存 所 有 的 训练 数据 。 下 面 将 介绍 另 一 种 提高 预测 精度 的 方法 ， 并 分 析 它 的 优势 所 在 。 


8.4 ”缩减 系数 来 “理解 ”数据 


如 果 数 据 的 特征 比 样本 点 还 多 应 该 怎么 办 ? 是 否 还 可 以 使 用 线性 回归 和 之 前 的 方法 来 做 预 
测 ? 答案 是 否定 的 ， 即 不 能 再 使 用 前 面 介绍 的 方法 。 这 是 因为 在 计算 (xx)” 的 时 候 会 出 错 。 
如 果 特 征 比 样本 点 还 多 (n > m )， 也 就 是 说 输入 数据 的 矩阵 x 不 是 满 秩 和 矩阵。 非 满 秩 矩阵 在 
求 逆 时 会 出 现 问 题 。 
为 了 解决 这 个 问题 ， 统 计 学 家 引入 了 岭 回归 (ridge regression ) 的 概念 ， 这 就 是 本 节 将 介绍 
的 第 一 种 缩减 方法 。 接 着 是 lasso 法 ， 该 方法 效果 很 好 但 计算 复杂 。 本 节 最 后 介绍 了 第 二 种 缩减 方 
法 ， 称 为 前 向 逐步 回归 ， 可 以 得 到 与 lasso 差 不 多 的 效果 ， 且 更 容易 实现 。 


8.4.1” 岭 回归 


简单 说 来 ， 岭 回归 就 是 在 矩阵 x*x 上 加 一 个 I 从 而 使 得 矩阵 非 奇 异 ， 进 而 能 对 xXx + 和 IT 求 道 。 
其 中 矩阵 I 是 一 个 mxm 的 单位 矩阵 ， 对 角 线 上 元 素 全 为 1， 其 他 元 素 全 为 0。 而 和 是 一 个 用 户 定义 的 
数值 ， 后 面 会 做 介绍 。 在 这 种 情况 下 ， 回 归 系 数 的 计算 公式 将 变 成 : 
W=(XX+AD 77 
岭 回归 最 先 用 来 处 理 特征 数 多 于 样本 数 的 情况 ,现在 也 用 于 在 估计 中 加 入 偏差 , 从 而 得 到 更 
好 的 估计 。 这 里 通过 引入 ^ 来 限制 了 所 有 w 之 和 ， 通 过 引入 该 惩罚 项 ,能 够 减少 不 重要 的 参数 ,这 
个 技术 在 统计 学 中 也 叫做 缩减 (shrinkage )。 
| 
叭 回归 使 用 了 单位 全 来 以 常 各 量 N， 我 们 观察 其 中 的 单位 矩阵 7， 可 以 看 到 值 ] 员 穿 整个 对 
角 线 , 其 余 元 素 全 是 0。 形象 地 , 在 0 构成 的 平面 上 有 一 条 1 组 成 的 “ 岭 "， 这 就 是 岭 回 归 中 的 “ 岭 ? 
的 由 来 。 


缩减 方法 可 以 去 掉 不 重要 的 参数 ， 因 此 能 更 好 地 理解 数据 。 此 外 ， 与 简单 的 线性 回归 相 比 ， 
缩减 法 能 取得 更 好 的 预测 效果 。 

与 前 几 章 里 训练 其 他 参数 所 用 的 方法 类 似 , 这 里 通过 预测 误差 最 小 化 得 到 X: 数据 获取 之 后 ， 
首先 抽 一 部 分 数据 用 于 测试 ， 翻 余 的 作为 训练 集 用 于 训练 参数 w。 训 练 完毕 后 在 测试 集 上 测试 巴 
测 性 能 。 通 过 选取 不 同 的 来 重复 上 述 测试 过 程 ， 最 终 得 到 一 个 使 预测 误差 最 小 的 X。 
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下 面 看 看 实际 效果 ， 打 开 regression.py 文 件 并 添加 程序 清单 8-3 的 代码 。 
程序 清单 8-3 ” 岭 回归 


def ridgeRegres (xMat,yMat, 1lam=0.2): 
XTX = xMat .T*xMat 
denom = xTx + eye (shape (xMat) [1] ) xlam 


if linalg.det (denom) == 0.0: 
print "This matrix is singular, cannot do inverse'" 
return 


WSs = denom.I * (xMat.T*yMat) 
return ws 


def ridgeTest (xArr,yArr): 
xMat = mat (xArr); yMat=mat (yArr} .T 
YMean = mean (yMat, 0) 


yMat = yMat - yMean a 
xMeans = mean (xMat, 0) 数据 标准 化 
xVar = var (xMat, 0) 

xMat = (xMat - xMeans) /xVar 


numTestPpts = 30 
wMat = zeros ( (numTestPts,shape (xMat) [1])) 
for i in range (numTestPpts): 
ws = ridgeRegres (xMat,yMat ,exp (i-10))} 
wMat [i, :] =ws.T 
return wMat 


程序 清单 8-3 中 的 代码 包含 了 两 个 函数 : 画 数 ridgeRegres () 用 于 计算 回归 系数 ， 而 函数 8 | 
ridgeTest () 用 于 在 一 组 上 测试 结果 。 
第 一 个 函数 ridgeRegres () 实现 了 给 定 lambda 下 的 岭 回归 求解 。 如 果 没 指定 lambda， 则 默 
”认为 0.2。 由 于 lambda 是 Python 保留 的 关键 字 ， 因 此 程序 中 使 用 了 1am 来 代替 。 该 函数 首先 构建 矩 
阵 xx， 然 后 用 lam 乘 以 单位 矩阵 (可 调用 NumPy 库 中 的 方法 eye () 来 生成 )。 在 普通 回归 方法 可 
能 会 产生 错误 时 ， 岭 回归 仍 可 以 正常 工作 。 那 么 是 不 是 就 不 再 需要 检查 行列 式 是 否 为 零 ， 对 吗 ? 
不 完全 对 ， 如 果 lambda 设 定 为 0 的 时 候 一 样 可 能 会 产生 错误 ， 所 以 这 里 仍 需要 做 一 个 检查 。 最 后 ， 
如 果 矩 阵 非 奇异 就 计算 回归 系数 并 返回 。 
为 了 使 用 岭 回 归 和 缩减 技术 ， 首 先 需要 对 特征 做 标准 化 处 理 。 回 忆 一 下 ， 第 2 章 已 经 用 过 标 
准 化 处 理 技术 ， 使 每 维特 征 具 有 相同 的 重要 性 (不 考虑 特征 代表 什么 )。 程 序 清单 8-3 中 的 第 二 个 
函数 ridgeTest () 就 展示 了 数据 标准 化 的 过 程 。 具 体 的 做 法 是 所 有 特征 都 减 去 各 自 的 均值 并 除 
以 方 益 @。 
处 理 完成 后 就 可 以 在 30 个 不 同 的 lambda 下 调用 ridgeRegres () 函数 。 注 意 ， 这 里 的 lambda 
应 以 指数 级 变化 , 这 样 可 以 看 出 lambda 在 取 非 常 小 的 值 时 和 取 非 常 大 的 值 时 分 别 对 结果 造成 的 影 
咱 。 最 后 将 所 有 的 回归 系数 输出 到 一 个 矩阵 并 返回 。 
下 面 看 一 下 鲍鱼 数据 集 上 的 运行 结果 。 
>>> reload (regression) 


>>> abxX,abyY=regression.loadDataSet ('abalone.txt')} 
>>> ridgeweights=regression.ridgeTest (abX,abY) 





na 
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这 样 就 得 到 了 30 个 不 同 lambda 所 对 应 的 回归 系数 。 为 了 看 到 缩减 的 效果 ， 在 Python 提示 符 下 
输入 如 下 代码 : 


>>> import matplotiib.pyplot as plt 
>>> fig = plt.figure() 

>>> ax = fig.add subplot (111) 

>>> ax.plot (ridgeWeights) 

>>> plt.show!() 


运行 之 后 应 该 看 到 一 个 类 似 图 8-6 的 结果 图 ,该 图 绘 出 了 回归 系数 与 10g (4) 的 关系 ,在 最 左边 ， 
即 4 最 小 时 ,可 以 得 到 所 有 系数 的 原始 值 ( 与 线性 回归 一 致 ; 而 在 右边 ， 系 数 全 部 缩减 成 0; 在 中 
间 部 分 的 某 值 将 可 以 取得 最 好 的 预测 效果 。 为 了 定量 地 找到 最 佳 参数 值 ， 还 需要 进行 交叉 验证 。 
另外 ， 要 判断 哪些 变量 对 结果 预测 最 具有 影响 力 ， 在 图 8-6 中 观察 它们 对 应 的 系数 大 小 就 可 以 。 


2.5 T po 一 人 一 2 ne 
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图 8-6 岭 回归 的 回归 系数 变化 图 。? 非 常 小 时 ， 系 数 与 普通 回归 一 样 。 而 ) 非 常 大 时 ， 
所 有 回归 系数 缩减 为 0。 可 以 在 中 间 某 处 找到 使 得 预测 的 结果 最 好 的 和 值 


还 有 一 些 其 他 缩减 方法 ， 如 lasso、LAR、PCA 回 归 ? 以 及 子 集 选 择 等 。 与 岭 回归 一 样 ， 这 些 
方法 不 仅 可 以 提高 预测 精确 率 ， 而 且 可 以 解释 回归 系数 。 下 面 将 对 lasso 方 法 稍 作 介绍 。 


8.4.2 lasso | 
不 难 证 明 ， 在 增加 如 下 约束 时 ， 普 通 的 最 小 二 乘法 回归 会 得 到 与 岭 回归 的 一 样 的 公式 ， 


Sw < 


k=1 





© Trevor Hastie, Robert Tibshirani, and Jerome Friedman, The Elements of Statistical Learning: Data Mining, Inference, and 
Prediction, 2nd ed. (Springer, 2009). 
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上 式 限定 了 所 有 回归 系数 的 平方 和 不 能 大 于 和 。 使 用 普通 的 最 小 二 乘法 回归 在 当 两 个 或 更 多 
的 特征 相关 时 , 可 能 会 得 出 一 个 很 大 的 正 系数 和 一 个 很 大 的 负 系数 。 EA 
在 ， 使 用 岭 回 归 可 以 避免 这 个 问题 。 

与 岭 回归 类 似 ， 另 一 个 缩减 方法 lasso 也 对 回归 系数 做 了 限定 ， 对 应 的 约束 条 件 如 下 : 


Shale 
唯一 的 不 同 点 在 于 ， 这 个 约束 条 件 使 用 绝对 值 取 代 了 平方 和 。 昌 然 约束 形式 只 是 稍 作 变化 ， 
结果 却 大 相 径 庭 : 在 人 足够 小 的 时 候 ， 一 些 系数 会 因此 被 迫 缩减 到 0， 这 个 特性 可 以 帮助 我 们 更 好 
地 理解 数据 。 这 两 个 约束 条 件 在 公式 上 看 起 来 相差 无 几 , 但 细微 的 变化 却 极 大 地 增加 了 计算 复杂 
度 (为 了 在 这 个 新 的 约束 条 件 下 解 出 回归 系数 ， 需 要 使 用 二 次 规划 算法 )。 下 面 将 介绍 一 个 更 为 
简单 的 方法 来 得 到 结果 ， 该 方法 叫做 前 向 逐步 回归 。 


8.4.3 前 向 逐步 回归 


前 向 逐步 回归 算法 可 以 得 到 与 jasso 差 不 多 的 效果 , 但 更 加 简单 。 它 属于 一 种 贪心 算法 ， 即 每 
一 步 都 尽 可 能 减少 误差 。 一 开始 ， 所 有 的 权重 都 设 为 1， 然 后 每 一 步 所 做 的 决策 是 对 某 个 权重 增 
加 或 减少 一 个 很 小 的 值 。 


该 算法 的 伪 代 码 如 下 所 示 : 
数据 标准 化 ， 使 其 分 布 满足 0 均值 和 单位 方差 
在 每 轮 和 迭代 过 程 中 : 
设置 当前 最 小 误差 lowestError 为 正 无 穷 
对 每 个 特征 : 
增 大 或 缩小 ; 
改变 一 个 系数 得 到 一 个 新 的 册 
计算 新 W 下 的 误差 
如 果 误 差 Error 小 于 当前 最 小 误差 lowestError: 设置 Wbest 等 于 当前 的 W 
将 W 设 置 为 新 的 Wbest 


下 面 看 看 实际 效 果 ， 打 开 regression.py 文 件 并 加 入 下 列 程序 清单 中 的 代码 。 
程序 清单 8-4 ”前 向 逐步 线性 回归 


def stageWise (xArr,yArr,eps=0.01,numIt=100): 
xMat = mat (xArr); yMat=mat (yArr)}.T 
yMean = mean(yMat ,0) 
YMat = yMat - yMean 
xMat = regularize (XMat) 
m,n=shape (xMat) 
returnMat = zeros( (numIt,n)) 
ws = Zeros{((n,1)); wsTest = ws.copy(); wsMax = ws .copy() 
for i in range (numIt) : 
print ws.T 
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lowestError = inf; 
for j in range (n): 
for sign in [-1,1]: 
wsTest = ws.copy () 
wsTest [j] += eps*sign 
yTest = xMat*wsTest 
rssE = rssError (yMat .A,yTest .A) 
if rssE < lowestError: 
lowestError = rssE 
wsMax = wsTest 
ws = WwWSMax.copy1() 
returnMat {i,:;]=ws.T 
return returnMat 


程序 清单 8-4 中 的 函数 stagewise () 是 一 个 逐步 线性 回归 算法 的 实现 ， 它 与 jasso 做 法 相近 但 
计算 简单 。 该 函数 的 输入 包括 : 输入 数据 xArr 和 预测 变量 yarr。 此 外 还 有 两 个 参数 ; 一 个 是 eps， 
表示 每 次 迭代 需要 调整 的 步 长 ， 男 一 个 是 numIt， 表 示 壕 代 次 数 。 

函数 首先 将 输入 数据 转换 并 存 人 和 矩阵 中 , 然后 把 特征 按照 均值 为 0 方差 为 1 进行 标准 化 处 理 。 在 
这 之 后 创建 了 一 个 向 量 ws 来 保存 w 的 值 ， 并且 为 了 实现 贪心 算法 建立 了 ws 的 两 份 副本 。 接 下 来 的 优 
化 过 程 需要 迭代 numIt 次 ， 并 且 在 每 次 迭代 时 都 打印 出 w 向 量 ， 用 于 分 析 算 法 执行 的 过 程 和 效果 。 

”贪心 算法 在 所 有 特征 上 运行 两 次 for 循 环 ,分 别 计算 增加 或 减少 该 特征 对 误差 的 影响 。 这 里 
使 用 的 是 平方 误差 ， 通过 之 前 的 函数 rssError () 得到。 该 误差 初始 值 设 为 正 无 穷 ， 经 过 与 所 有 
的 误差 比较 后 取 最 小 的 误差 。 整 个 过 程 循环 述 代 进行 。 

下 面 看 一 下 实际 效果 ， 在 regression.py 里 输入 程序 清单 8-4 的 代码 并 保存 ， 然 后 在 Python 提示 
符 下 输入 如 下 命令 : 





>>> reload (regression) 

<module 'regression' from 'regression.pyc'> 

>>> XArr,yArr=regression.loadDataSet ('abalone.txt'!) 
>>> regression.stageWwise (xArr,yArr,0.01,200) 

LO:s OQ 0 “0 10s “0 FO 0 





[[ 0. 0. 0 . 0.01 0， 0 . 0 . 0. ]] 
{{ 0. 0. 0. 0.02 0. 0. 0 ， 0. ]] 
[[ 0.04 0， 0.09 0.03 0.31 -0.64 0. 0.36]] 
[[ 0.05 0. 0.09 0.03 0.31 -0.64 0. 0.36]] 
[[ 0.04 0， 0.09 0.03 0.31 -0.64 0. 0.36]]】 


上 述 结果 中 值得 注意 的 是 w1 和 w6 都 是 0， 这 表明 它们 不 对 目标 值 造成 任何 影响 ， 也 就 是 说 这 
些 特征 很 可 能 是 不 需要 的 。 另 外 ， 在 参数 eps 设 置 为 0.01 的 情况 下 ， 一 段 时 间 后 系数 就 已 经 侈 和 
并 在 特定 值 之 间 来 回 震荡 ， 这 是 因为 步 长 太 大 的 缘故 。 这 里 会 看 到 ， 第 一 个 权重 在 0.04 和 0.05 之 
间 来 回 震荡 。 

下 面试 着 用 更 小 的 步 长 和 更 多 的 步 数 : 


>>> regression.stageWise (xArr,yArr,0.001,5000) 

[[ 0. 0. 0,. 0. 0. 0. 0. 0.]}] 

[[ 0. 0 . 0 . 0.001 0. 0 . 0 . 0 . ] ] 
{[0. 0. 0 . 0.002 0. 0. 0 . 0. ]】] 
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[[ 0.044 -0.011 0.12 0.022 2.023 -0.963 -0.105 0.187]] 

[[ 0.043 -0.011 0.12 0.022 2.023 -0.963 -0.105 0.187]] 

[[ 0.044 -0.011 0.12 0.022 2.023 -0.963 -0.105 0.187]] 

接 下 来 把 这 些 结果 与 最 小 二 乘法 进行 比较 ， 后 者 的 结果 可 以 通过 如 下 代码 获得 : 

>>> xMat=mat (xArr) 

>>> yMat=mat (yArr) .了 

>>> xMat=regression.regularize (xMat) 

>>> YM = mean (yMat, 0) 

>>> yMat = yMat - yM 

>>> weights=regression.standRegres (xMat,yMat .T) 

>>> weights.T 

matrix([[ 0.0430442 ,， -0.02274163, 0.13214087, 0.02075182, 2.22403814, 
-0.99895312, -0.11725427, 0.16622915]]) 


可 以 看 到 在 5000 次 迭代 以 后 ， 逐 步 线 性 回归 算法 与 常规 的 最 小 二 乘法 效果 类 似 。 使 用 0.005 
的 epsilon 值 并 经 过 1000 次 迭代 后 的 结果 参见 图 8-7。 


1.5 























0 200 400 600 800 1000 


图 8-7 鲍鱼 数据 集 上 执行 逐步 线性 回归 法 得 到 的 系数 与 迄 代 次 数 间 的 关系 。 逐 步 线性 
回归 得 到 了 与 lasso 相 似 的 结果 ， 但 计算 起 来 更 加 简便 


逐步 线性 回归 算法 的 实际 好 处 并 不 在 于 能 绘 出 图 8-7 这 样 漂亮 的 图 , 主要 的 优点 在 于 它 可 以 帮助 
人 们 理解 现 有 的 模型 并 做 出 改进 。 当 构建 了 一 个 模型 后 ， 可 以 运行 该 算法 找 出 重要 的 特征 ， 这 样 就 
有 可 能 及 时 停止 对 那些 不 重要 特征 的 收集 。 最 后 ,如果 用 于 测试 , 该 算法 每 100 次 迭代 后 就 可 以 构建 
出 一 个 模型 ， 可 以 使 用 类 似 于 10 折 交叉 验证 的 方法 比较 这 些 模型 ， 最 终 选择 使 误差 最 小 的 模型 。 

当 应 用 缩减 方法 (如 逐步 线性 回归 或 岭 回归 ) 时 ， 模 型 也 就 增加 了 偏差 (bias ), 与 此 同时 却 
减 小 了 模型 的 方差 。 下 一 节 将 揭示 这 些 概念 之 间 的 关系 并 分 析 它 们 对 结果 的 影响 。 








wwaibbt.com DODDDDDOD 


152 ”第 8 章 预测 数值 型 数据 回归 


8.5 权衡 偏差 与 方差 


任何 时 候 , 一 旦 发 现 模 型 和 测量 值 之 间 存 在 差异 , 就 说 出 现 了 误差 。 当 考虑 模型 中 的 “噪声 ” 
或 者 说 误差 时 ， 必 须 考虑 其 来 源 。 你 可 能 会 对 复杂 的 过 程 进行 简化 ,这 将 导致 在 模型 和 测量 值 之 
间 出 现 “ 噪 声 ” 或 误差 ， 若 无 法 理解 数据 的 真实 生成 过 程 ， 也 会 导致 差异 的 发 生 。 另 外 ,测量 过 
程 本 身 也 可 能 产生 “噪声 ”或 者 问题 。 下 面 举 一 个 例子 ，8.1 节 和 8.2 节 处 理 过 一 个 从 文件 导 人 的 
二 维 数据 。 实 话 来 讲 ， 这 个 数据 是 我 自己 造 出 来 的 ， 其 具体 的 生成 公式 如 下 

yY=3.0+1.7x+0.isin(30x)+0.06N(0,1)， 
其 中 N (0,1) 是 一 个 均值 为 0、 方 差 为 1 的 正 态 分 布 。 在 8.1 节 中 ， 我 们 尝试 过 仅 用 一 条 直线 来 拟 合 
上 述 数据 。 不 难 想到 ， 直 线 所 能 得 到 的 最 佳 拟 合 应 该 是 3 .0+1 .7x 这 一 部 分 。 这 样 的 话 ， 误 差 部 
分 就 是 0 .1sin(30x)+0.06N(0,1)。 在 8.2 节 和 8.3 节 , 我 们 使 用 了 局 部 加 权 线 性 回归 来 试图 捕捉 
数据 背后 的 结构 。 该 结构 拟 合 起 来 有 一 定 的 难度 ， 因此 我 们 测试 了 多 组 不 同 的 局 部 权重 来 找到 具 
有 最 小 测试 误差 的 解 。 

图 8-8 给 出 了 训练 误差 和 测试 误差 的 曲线 图 ， 上 面 的 曲线 就 是 测试 误差 ， 下 面 的 曲线 是 训练 
误差 。 根 据 8.3 节 的 实验 我 们 知道 ， 如 果 降 低 核 的 大 小 ， 那 么 训练 误差 将 变 小 。 从 图 8-8 来 看 ， 从 
左 到 右 就 表示 了 核 逐 渐 减 小 的 过 程 。 








高 方差 低 偏差 





模型 复杂 度 
低 高 


图 8-8 ”偏差 方差 折 中 与 测试 误差 及 训练 误差 的 关系 。 上 面 的 曲线 就 是 测试 误差 ， 在 中 


间 部 分 最 低 。 为 了 做 出 最 好 的 预测 ， 我 们 应 该 调整 模型 复杂 度 来 达到 测试 误差 
的 最 小 值 


一 般 认 为 ， 上 述 两 种 误差 由 三 个 部 分 组 成 偏差、 测量 误差 和 随机 噪声 。 在 8.2 节 和 8.3 节 ， 
我 们 通过 引入 了 三 个 越 来 越 小 的 核 来 不 断 增 大 模型 的 方差 。 
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8.4 节 介绍 了 缩减 法 ， 可 以 将 一 些 系数 缩减 成 很 小 的 值 或 直接 缩减 为 0， 这 是 一 个 增 大 模型 偏 
差 的 例子 。 通 过 把 一 些 特征 的 回归 系数 缩减 到 0， 同 时 也 就 减少 了 模型 的 复杂 度 。 例 子 中 有 8 个 特 
征 ， 消 除 其 中 两 个 后 不 仅 使 模型 更 易 理 解 ， 同 时 还 降低 了 预测 误差 。 图 8-8 的 左 侧 是 参数 缩减 过 
于 严厉 的 结果 ， 而 右 侧 是 无 缩减 的 效果 。 

方差 是 可 以 度量 的 。 如 果 从 鲍鱼 数据 中 取 一 个 随机 样本 集 〈 例如 取 其 中 100 个 数据 ) 并 用 线 
性 模型 拟 合 ,将 会 得 到 一 组 回归 系数 。 同 理 ， 再 取出 另 一 组 随机 样本 集 并 拟 合 ， 将 会 得 到 另 一 组 
回归 系数 。 这 些 系数 间 的 差异 大 小 也 就 是 模型 方差 大 小 的 反映 "。 上 述 偏差 与 方差 折 中 的 概念 在 
机 器 学 习 十 分 流行 并 且 反 复出 现 。 

下 一 节 将 介绍 上 述 理论 的 应 用 : 首先 从 拍卖 站 点 抽取 一 些 数据 , 再 使 用 一 些 回归 法 进行 实验 
来 为 数据 找到 最 佳 的 岭 回 归 模 型 。 这 样 就 可 以 通过 实际 效果 来 看 看 偏差 和 方差 间 的 折 中 效果 。 


8.6 示例: 预测 乐高 玩具 套装 的 价格 


你 对 乐高 (LEGO ) 品牌 的 玩具 了 解 吗 ? 乐高 公司 生产 拼装 类 玩具 ， 由 很 多 大 小 不 同 的 塑料 
插 块 组 成 。 这 些 塑 料 插 块 的 设计 非常 出 色 , 不 需要 任何 烙 合 剂 就 可 以 随意 拼装 起 来 。 除了 简单 玩 
具 之 外 ， 乐 高 玩具 在 一 些 成 人 中 也 很 流行 。 一 般 来 说 ， 这 些 插 块 都 成 套 出 售 ， 它 们 可 以 拼装 成 很 “ 
多 不 同 的 东西 ， 如 船 、 城 堡 、 一 些 著 名 建筑 ， 等 等 。 乐 高 公司 每 个 套装 包含 的 部 件数 目 从 10 件 到 
5000 件 不 等 。 

一 种 乐高 套装 基本 上 在 几 年 后 就 会 停产 ， 但 乐高 的 收藏 者 之 间 仍 会 在 停产 后 彼此 交易 。 
Dangler 喜 欢 为 乐高 套装 估价 ， 下 面 将 用 本 章 的 回归 技术 帮助 他 建立 一 个 预测 模型 。 


(1) 收集 数据 ， 用 Google Shopping 的 API 收 集 数据 。 
(2) 准备 数据 ; 从 返回 的 JSON 数 据 中 抽取 价格 。 
(3) 分 析 数 据 : 可 视 化 并 观察 数据 。 
(4) 训练 算法 : 构建 不 同 的 模型 ， 采 用 逐步 线性 回归 和 直接 的 线性 回归 模型 。 
(5) 测试 算法 : 使 用 交叉 验证 来 测试 不 同 的 模型 ， 分 析 哪个 效果 最 好 。 
(6) 使 用 算法 : 这 次 练习 的 目标 就 是 生成 数据 模型 。 


在 这 个 例子 中 , 我 们 将 从 不 同 的 数据 集 上 获取 价格 ， 然 后 对 这 些 数据 建立 回归 模型 。 需 要 做 
的 第 一 件 事 就 是 如 何 获取 数据 。 
8.6.1 ”收集 数据 使 用 Google 购物 的 API 


Google 已 经 为 我 们 提供 了 一 套 购 物 的 API 来 抓 取 价 格 。 在 使 用 API 之 前 , 需要 注册 一 个 Google 
账号 ， 然 后 访问 Google API 的 控制 台 来 确保 购物 API 可 用 。 完 成 之 后 就 可 以 发 送 HTTP 请 求 ，API 





@ 方差 指 的 是 模型 之 间 的 差异 ， 而 偏差 指 的 是 模型 预测 值 和 数据 之 间 的 差异 ， 请 读者 注意 区 分 。 一 一 译 者 注 
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将 以 JSON 格 式 返回 所 需 的 产品 信息 。Python 提 供 了 JSON 和 解析 模 块 , 我们 可 以 从 返回 的 JSON 格 式 
里 整理 出 所 需 数 据 。 详 细 的 API 介 绍 可 以 参见 ，http://code.google.com/apis/shopping/search/v1/ 
.getting_started.html。 

打开 regression.py 文 件 并 加 入 如 下 代码 。 


程序 清单 8-5 ”购物 信息 的 获取 函数 


from time import sleep 

import json 

import urllib2 

def searchForSet (retX, rety, setNum, yr, numpce, origPprc): 











| Sleep (10) 

| myAPIstr = get from code.google ,com' 

| SearchURL = 'https://www.googleapis.com/shopping/search/v1l/public/ 
products?\ 


key=%s&country=US&q=lego+r%d&alt=json' % (myAPIstr, setNum) 
pg = Urllib2.urlopen (searchURL) 
retDict = json.loads (pg.read!{)) 
for i in range (lenl(retDict['items'])): 
try: 





currIitem = retDict{['items'] {i]} 
zt currIitem{'product'] ['condition'] == 'new': 
newFlag = 1 
else: newFlag = 0 
jy listOfInv = currIitem['product'] ['inventories'] 
| for item in 1istoOfTInv: 
1 sellingprice = item['price'] 
if sellingprice > OrigPrc * 0.5: 
print "%d\t%d\tg%d\tgsf\t%s%f" g%\ 
{yr,numPpce, newFlag,origPrc, sellingPprice) 
retxX.append( [yr, numPce, newFlag, origPrc]) 
retY ,append (sellingPrice) 


9 


except: print 'problem with item %d' 当 i 


.9 过 滤 掉 不 完整 的 套装 


: def setDataCollect (retX, retY): 

| SearchForSet (retX, retY, 8288, 2006, 800, 49.99) 
searchForSet (retX, retyY, 10030, 2002, 3096, 269.99) 
SearchForSet (retX, retY, 10179, 2007, 5195, 499.99) 
searchForSet (retX, rety, 10181, 2007, 3428, 199.99) 
SearchForSet (retX, retY, 10189, 2008, 5922, 299.99) 
SearchForSet (retX, retY, 10196, 2009, 3263, 249.99) 


上 述 程序 清单 中 的 第 一 个 函数 是 searchForset () ， 它 调用 Google 购 物 API 并 保证 数据 抽取 

的 正确 性 。 这 里 需要 导入 新 的 模块 ，time.sleep() 、json 和 ur1l1ib2。 但 是 一 开始 要 休眠 10 

秒 钟 ， 这 是 为 了 防止 短 时 间 内 有 过 多 的 API 调 用 。 接 下 来 ,我们 拼接 查询 的 URL 字 符 串 ， 添 加 API 

的 key 和 待 查询 的 套装 信息 ， 打 开 和 解析 操作 通过 json. loads () 方 法 实现 。 完 成 后 我 们 将 得 到 
一 部 字典 ， 下 面 需 要 做 的 是 从 中 找 出 价格 和 其 他 信息 。 

部 分 返回 结果 的 是 一 个 产品 的 数组 , 我 们 将 在 这 些 产 品 上 循环 迭代 , 判断 该 产品 是 否 是 新 产 

品 并 抽取 它 的 价格 。 我 们 知道 ， 乐 高 套装 由 很 多 小 插件 组 成 , 有 的 二 手套 装 很 可 能 会 缺失 其 中 一 

两 件 。 也 就 是 说 ， 卖 家 只 出 售 套装 的 若干 部 件 ( 不 完整 )。 因 为 这 种 不 完整 的 套装 也 会 通过 检索 
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结果 返回 , 所 以 我 们 需要 将 这 些 信息 过 滤 掉 ( 可 以 统计 描述 中 的 关键 词 或 者 是 用 贝 叶 斯 方法 来 判 
断 )。 我 在 这 里 仅 使 用 了 一 个 简单 的 启发 式 方法 : 如 果 一 个 套装 的 价格 比 原始 价格 低 一 半 以 上 ， 
则 认为 该 套装 不 完整 。 程 序 清单 8-5 在 代码 @ 处 过 滤 掉 了 这 些 套装 ， 解 析 成 功 后 的 套装 将 在 屏幕 
上 显示 出 来 并 保存 在 list 对 象 retx 和 retY 中 。 

程序 清单 8-5 的 最 后 一 个 函数 是 setDatacollect () ， 它 负责 多 次 调用 searchForSet ()。 
函数 searchForSet () 的 其 他 参数 是 从 www.brickset.com 收 集 来 的 ， 它 们 也 一 并 输出 到 文件 中 。. 

下 面 看 一 下 执行 结果 ， 添 加 程序 清单 8-5 中 的 代码 之 后 保存 regression.py， 在 Python 提示 符 下 
输入 如 下 命令 ， 


>>> lgX = []; 1gY = [] 
>>> regression.setDataCollect (1gX，1gY) 


2006 800 1 49.990000 549.990000 
2006 800 1 49.990000 759.050000 
2006 800 1 49.990000 316.990000 
2002 3096 1 269.990000 499.990000 
2002 3096 1 269.990000 289.990000 
2009 3263 0 249.990000 524.990000 
2009 3263 1 249.990000 672.000000 
2009 3263 王 249.990000 580.000000 
检查 一 下 gx 和 1gY 以 确认 一 下 它们 非 空 。 下 节 我 们 将 使 用 这 些 数据 来 构建 回归 方程 并 预测 


乐高 玩具 套装 的 售 价 。 


8.6.2 训练 算法 ， 建立 模型 


上 一 节 从 网 上 收集 到 了 一 些 真实 的 数据 ,下 面 将 为 这 些 数据 构建 一 个 模型 。 构 建 出 的 模型 可 
以 对 售 价 做 出 预测 ， 并 帮助 我 们 理解 现 有 数据 。 看 一 下 Python 是 如 何 完成 这 些 工作 的 。 
首先 需要 添加 对 应 常数 项 的 特征 X0 ( X0=1 )， 为 此 创建 一 个 全 1 的 矩阵 : 


>>> Shape (lgX) 
(58, 4) 
>>> 1gX1=mat (ones((58,5))) 


接 下 来 ， 将 原 数据 矩阵 1gX 复 制 到 新 数据 矩阵 1gx1 的 第 1 到 第 5 列 ， 
>>> lgX1[:,1:5]=mat (1gx) 


确认 一 下 数据 复制 的 正确 性 : 


>>> 1LgX[0] 

[2006.0, 800.0, 0.0, 49.990000000000002] 

>>> lgX1[0] 

matrix([[ 1.00000000e+00， 2.00600000e+03， 8.00000000e+02， 
0.00000000e+00， 4.99900000e+01]]) 


很 显然 ,后 者 除了 在 第 0 列 加 入 1 之 外 其 他 数据 都 一 样 。 最 后 在 这 个 新 数据 集 上 进行 回归 处 理 ， 





>>> Ws=regression.standRegres (1gX1, 19gY) 
>>> WS 
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matrix([f 5.5319970l1e+04] ， 
: L -2.75928219e+01] E 
[ -2.68392234e-02]， 
! [ -1.12208481le+01]， 
! [ 2.57604055e+00]]). 


检查 一 下 结果 ， 看 看 模型 是 否 有 效 ; 
1 >>> 1gX1[0] *wSs 

matrix([[ 76.07418853]]) 

>>> lgXi[-1]*ws 

matrix([[ 431.17797672]] ) 

>>> 1g9X1 [43] *ws 

matrix([[ 516.20733105]]) 


可 以 看 到 模型 有 效 。 下 面 看 看 具体 的 模型 。 该 模型 认为 套装 的 售 价 应 该 采用 如 下 公式 计算 : 

$55319.97-27.59*Year-0.00268*NumPieces-11.22*NewOrUsed+2.57*original price 

这 个 模型 的 预测 效果 非常 好 , 但 模型 本 身 并 不 能 令 人 满意 。 它 对 于 数据 拟 合 得 很 好 , 但 看 上 
去 没有 什么 道理 。 从 公式 看 ， 套 装 里 零 部 件 越 多 和 售 价 反 而 会 越 低 。 另 外 ,该 公式 对 新 套装 也 有 一 
定 的 惩罚 。 

下 面 使 用 缩减 法 中 一 种 ， 即 岭 回归 再 进行 一 次 实验 。 前 面 讨论 过 如 何 对 系数 进行 缩减 , 但 这 
次 将 会 看 到 如 何 用 缩减 法 确定 最 佳 回归 系数 。 打 开 regression.py 并 输入 下 面 的 代码 。 


程序 清单 8-6 ”交叉 验证 测试 岭 回归 


def crossValidation (xArr,yArr,numVal=10): 
: m = len (yArr) 
indexList = range (m) 
errorMat = zeros( (numVval,30)) 
for i in range (numVal) : 
trainX=[]; trainY= [] 2 创建 训练 集 和 测试 集 容器 
testX = {]; testY = [] 
random. shuffle (indexList) 
for j in range(m): 
if < m*0.9: 
trainxX .append (xArr {indexList [j]]) Re Nk 
trainYy.append (yaArr [indexList {j}]) 数据 分 为 训练 集 和 测试 集 


else: 
testX.appenda (xArr [indexList [j]]) 
testY.appena (yArr{indexList{j}}) 
wMat = ridgeTest (trainx,trainy) 
for k in range (30): 
matTestX = mat (testX) ) matTrainX=mat (trainx) 用 训练 时 的 参数 将 
| meanTrain = mean (matTrainx,0) 测试 数据 标准 化 
varTrain = var (matTrainxX, 0) 
matTestX = (matTestX-meanTrain) /varTrain 
YEst = matTestX * mat(wMat[k,:]}).T + mean(trainYy) 
errorMat [i,k]=rssError (yEst.T.A,array (testY)) 
meanErrors = meanl(errorMat, 0) 
minMean = float (min (meanErrors)) 
bestWeights = wMat [nonzero (meanErrors==minMean)}! 
xMat = mat (xArr); yMat=mat (yArr) .了 
meanX = mean (xMat,0); varX = var (xMat,0) 
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unReg = bestWeights/varx 
print "the best model from Ridge Regression is:\n",unReg 数据 还 原 





print "with constant term: ",\ 
-l*sum{(multiply (meanX,unReg)) + mean{(yMat) 


上 述 程序 清单 中 的 函数 crossvalidation () 有 三 个 参数 ,前 两 个 参数 lgx 和 1gY 存 有 数据 集中 
的 X 和 Y 值 的 lst 对象， 默认 igx 和 1gY 具 有 相同 的 长 度 。 第 三 个 参数 numval 是 算法 中 交叉 验证 的 次 
数 ， 如 果 该 值 没有 指定 ， 就 取 默 认 值 10。 函 数 czossValidaataion () 首 先 计 算数 据点 的 个 数 m。 创 
建 好 了 训练 集 和 测试 集 容器 全 ， 之 后 创建 了 一 个 list 并 使 用 Numpy 提 供 的 random. shuffle() 函数 
对 其 中 的 元 素 进行 混 洗 ( shuffie )， 因 此 可 以 实现 训练 集 或 测试 集 数 据点 的 随机 选取 。 全 处 将 数据 
集 的 90% 分 割 成 训练 集 ， 其 余 10% 为 测试 集 ， 并 将 二 者 分 别 放 入 对 应 容器 中 。 

一 旦 对 数据 点 进行 混 洗 之 后 ， 就 建立 一 个 新 的 矩阵 wMat 来 保存 岭 回 归 中 的 所 有 回归 系数 。 
我 们 还 记得 在 8.4.1 节 中 ， 函 数 =*idgeTest () 使 用 30 个 不 同 的 4 值 创建 了 30 组 不 同 的 回归 系数 。 接 
下 来 我 们 也 在 上 述 测试 集 上 用 30 组 回归 系数 来 循环 测试 回归 效果 。 岭 回归 需要 使 用 标准 化 后 的 数 
据 ， 因 此 测试 数据 也 需要 用 与 测试 集 相同 的 参数 来 执行 标准 化 。 在 @ 处 用 函数 rssError () 计 算 
误差 ， 并 将 结果 保存 在 errormat 中 。 

在 所 有 交叉 验证 完成 后 ，errorMat 保 存 了 ridgeTest () 里 每 个 1 对 应 的 多 个 误差 值 。 为 了 
将 得 出 的 回归 系数 与 standRegres () 作对 比 ， 需 要 计算 这 些 误差 估计 值 的 均值 "。 有 一 点 值得 注 
意 ; 岭 回归 使 用 了 数据 标准 化 ， 而 standRegres () 则 没有 ， 因 此 为 了 将 上 述 比较 可 视 化 还 需 将 
数据 还 原 。 在 全 处 对 数据 做 了 还 原 并 将 最 终结 果 展 示 。 

来 看 一 下 整体 的 运行 效果 ， 在 regression.py 中 输入 程序 清单 8-6 中 的 代码 并 保存 ， 然 后 执行 如 
下 命令 : 

>>> regression.crossValidation (lgxX,19gY,10) . 

The best model from Ridge Regression is: 


[[ -2.96472902e+01 -1.34476433e-03 -3.38454756e+01 2.44420117e+00]] 
with constant term: 59389.2069537 


为 了 便于 与 常规 的 最 小 二 乘法 进行 比较 ， 下 面 给 出 当前 的 价格 公式 : 

$59389.21-29.64*Year-0.00134*Numpieces-33.85*NewOrUsed+2.44*original price， 

可 以 看 到 ,该 结果 与 最 小 二 乘法 没有 太 大 差异 。 我 们 本 期 望 找 到 一 个 更 易于 理解 的 模型 ， 显 
然 没有 达到 预期 效果 。 为 了 达到 这 一 点 ,我 们 来 看 一 下 在 缩减 过 程 中 回归 系数 是 如 何 变化 的 ， 输 


人 下 面 的 命令 ， 
>>> regression.ridgeTest (19X, 19Y》 
array([[ -1.45288906e+02, -8.39360442e+03, -3.28682450e+00， 
4.42362406e+04]， 
[ ~1.46649725e+02, -1.89952152e+03, -2.80638599e+00， 


4.27891633e+04] ， 


[ ~4.91045279e-06, 5.01149871e-08, 2.40728171e-05, 
8.14042912e-07]]) 





@ 此 处 为 10 折 ， 所 以 每 个 /应 该 对 应 10 个 误差 。 应 选取 使 误差 的 均值 最 低 的 回归 系数 。 一 一 译 者 注 
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这 些 系数 是 经 过 不 同 程度 的 缩减 得 到 的 。 首 先 看 第 1 行 ， 第 4 项 比 第 2 项 的 系数 大 5 售 ， 比 第 1 
项 大 57 倍 。 这 样 看 来 ， 如 果 只 能 选择 一 个 特征 来 做 预测 的 话 ， 我 们 应 该 选择 第 4 个 特征 ， 也 就 是 
原始 价格 。 如 果 可 以 选择 2 个 特征 的 话 ， 应 该 选择 第 4 个 和 第 2 个 特征 。 

这 种 分 析 方 法 使 得 我 们 可 以 挖 所 大 量 数据 的 内 在 规律 。 在 仅 有 4 个 特征 时 ， 该 方法 的 效果 也 
许 并 不 明显 ; 但 如 果 有 100 个 以 上 的 特征 ， 该 方法 就 会 变 得 十 分 有 效 ; 它 可 以 指出 哪些 特征 是 关 
键 的 ， 而 哪些 特征 是 不 重要 的 。 


8.7 ”本 章 小 结 


与 分 类 一 样 , 回归 也 是 预测 目标 值 的 过 程 。 回 归 与 分 类 的 不 同 点 在 于 , 前 者 预测 连续 型 变量 ， 
而 后 者 预测 离散 型 变量 。 回 归 是 统计 学 中 最 有 力 的 工具 之 一 。 在 回归 方程 里 ， 求 得 特征 对 应 的 最 
佳 回归 系数 的 方法 是 最 小 化 误差 的 平方 和 。 给 定 输 入 矩阵 X， 如 果 XxX 的 道 存在 并 可 以 求 得 的 话 ， 
回归 法 都 可 以 直接 使 用 。 数据 集 上 计算 出 的 回归 方程 并 不 一 定 意味 着 它 是 最 佳 的 , 可 以 使 用 预测 
值 ygat 和 原始 值 y 的 相关 性 来 度量 回归 方程 的 好 坏 。 

当 数 据 的 样本 数 比特 征 数 还 少时 候 ， 矩 阵 Xx 的 逆 不 能 直接 计算 。 即 便当 样本 数 比特 征 数 多 
时 ，Xxx 的 逆 仍 有 可 能 无 法 直接 计算 ， 这 是 因为 特征 有 可 能 高 度 相 关 。 这 时 可 以 考虑 使 用 岭 回归 ， 
因为 当 xx 的 逆 不 能 计算 时 ， 它 仍 保证 能 求 得 回归 参数 。 

岭 回归 是 缩减 法 的 一 种 , 相当 于 对 回归 系数 的 大 小 施加 了 限制 。 另 一 种 很 好 的 缩减 法 是 lasso。 
Lasso 难 以 求解 ， 但 可 以 使 用 计算 简便 的 逐步 线性 回归 方法 来 求 得 近似 结果 。 

缩减 法 还 可 以 看 做 是 对 一 个 模型 增加 偏差 的 同时 减少 方差 。 偏 差 方 差 折 中 是 一 个 重要 的 概 
念 ， 可 以 帮助 我 们 理解 现 有 模型 并 做 出 改进 ， 从 而 得 到 更 好 的 模型 。 

本 章 介绍 的 方法 很 有 用 。 但 有 些 时 候 数 据 间 的 关系 可 能 会 更 加 复杂 , 如 预测 值 与 特征 之 间 是 
非 线性 关系 , 这 种 情况 下 使 用 线性 的 模型 就 难以 拟 合 。 下 一 章 将 介绍 几 种 使 用 树 结构 来 预测 数据 
的 方法 。 
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本 章 内 容 

口 CART 算 法 

口 回归 与 模型 树 

口 树 前 枝 算法 

口 Python 中 GUI 的 使 用 


第 8 章 介绍 的 线性 回归 包含 了 一 些 强 大 的 方法 ， 但 这 些 方法 创建 的 模型 需要 拟 合 所 有 的 样本 
点 (局 部 加 权 线 性 回归 除外 )。 当 数据 拥有 众多 特征 并 且 特 征 之 间 关 系 十 分 复杂 时 ， 构 建 全 局 模 
型 的 想法 就 显得 太 难 了 ,也 咯 显 笨 拙 。 而 且 ， 实际 生活 中 很 多 问题 都 是 非 线性 的 , 不 可 能 使 用 全 
局 线性 模型 来 拟 合 任何 数据 。 

一 种 可 行 的 方法 是 将 数据 集 切 分 成 很 多 份 易 建 模 的 数据 ， 然 后 利用 第 8 章 的 线性 回归 技术 来 
建 模 。 如 果 首 次 切 分 后 仍然 难以 拟 合 线性 模型 就 继续 切 分 。 在 这 种 切 分 方式 下 ， 树 结构 和 回归 法 
就 相当 有 用 。 

本 章 首先 介绍 一 个 新 的 叫做 CART ( Classification And Regression Trees, 分 类 回归 树 ) 的 树 构 
建 算法 。 该 算法 既 可 以 用 于 分 类 还 可 以 用 于 回归 ， 因 此 非常 值得 学 习 。 然 后 利用 Python 来 构建 并 
显示 CART 树 。 代 码 会 保持 足够 的 灵活 性 以 便 能 用 于 多 个 问题 当中 。 接 着 ,利用 CART 算 法 构建 
回归 树 并 介绍 其 中 的 树 前 枝 技 术 ( 该 技术 的 主要 目的 是 防止 树 的 过 拟 合 )。 之 后 引入 了 一 个 更 高 
级 的 模型 树 算法 。 与 回归 树 的 做 法 (在 每 个 叶 节 点 上 使 用 各 自 的 均值 做 预测 ) 不 同 ， 该 算法 需要 
在 每 个 叶 节点 上 都 构建 出 一 个 线性 模型 。 在 这 些 树 的 构建 算法 中 有 一 些 需要 调整 的 参数 ,所 以 还 
会 介绍 如 何 使 用 Python 中 的 Tkinter 模 块 建立 图 形 交 互 界面 。 最 后 ， 在 该 界面 的 辅助 下 分 析 参 数 对 
回归 效果 的 影响 。 


9.1 复杂 数据 的 局 部 性 建 模 


第 3 章 使 用 决策 树 来 进行 分 类 。 决 策 树 不 断 将 数据 切 分 成 小 数据 集 ， 直 到 所 有 目标 变量 完全 
相同 ,或 者 数据 不 能 再 切 分 为 止 。 决 策 树 是 一 种 贪心 算法 ， 它 要 在 给 定时 间 内 做 出 最 佳 选 择 ,但 
并 不 关心 能 否 达到 全 局 最 优 。 
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优点 ;可 以 对 复杂 和 非 线性 的 数据 建 模 。 
缺点 ; 结果 不 易 理解。 
适用 数据 类 型 :数值 型 和 标 称 型 数据 。 


第 3 章 使 用 的 树 构建 算法 是 ID3。ID3 的 做 法 是 每 次 选取 当前 最 佳 的 特征 来 分 制 数 据 ， 并 按照 
该 特征 的 所 有 可 能 取 值 来 切 分 。 也 就 是 说 ， 如 果 一 个 特征 有 4 种 取 值 , :那么 数据 将 被 切 成 4 份 。 一 
且 按 某 特征 切 分 后 , 该 特征 在 之 后 的 算法 执行 过 程 中 将 不 会 再 起 作用 ,所 以 有 观点 认为 这 种 切 分 
方式 过 于 迅速 。 另 外 一 种 方法 是 二 元 切 分 法 ， 即 每 次 把 数据 集 切 成 两 份 。 如 果 数 据 的 某 特征 值 等 
于 切 分 所 要 求 的 值 ， 那 么 这 些 数据 就 进入 树 的 左 子 树 ， 反 之 则 进入 树 的 右 子 树 。 

除了 切 分 过 于 迅速 外 ，ID3 算 法 还 存在 另 一 个 问题 ， 它 不 能 直接 处 理 连 续 型 特征 。 只 有 事先 
将 连续 型 特征 转换 成 离散 型 ， 才 能 在 ID3 算 法 中 使 用 。 但 这 种 转换 过 程 会 破坏 连续 型 变量 的 内 在 
性 质 。 而 使 用 二 元 切 分 法 则 易于 对 树 构 建 过 程 进行 调整 以 处 理 连续 型 特征 。 具 体 的 处 理 方法 是 ， 
如 果 特 征 值 大 于 给 定 值 就 走 左 子 树 , 否则 就 走 右 子 树 。 另 外 , 二 元 切 分 法 也 节省 了 树 的 构建 时 间 ， 
但 这 点 意义 也 不 是 特别 大 ， 因 为 这 些 树 构建 一 般 是 离线 完成 ， 时 间 并 非 需要 重点 关注 的 因素 。 

CART 是 十 分 著名 且 广 泛 记 载 的 树 构建 算法 ， 它 使 用 二 元 切 分 来 处 理 连续 型 变量 。 对 CART 
稍 作 修 改 就 可 以 处 理 回归 问题 。 第 3 章 中 使 用 香农 箭 来 度量 集合 的 无 组 织 程度 。 如 果 选 用 其 他 方 
法 来 代替 香农 米 ， 就 可 以 使 用 树 构 建 算法 来 完成 回归 。 

下 面 将 实 观 CART 算 法 和 回归 树 。 回 归 树 与 分 类 树 的 思路 类 似 ,但 叶 节 点 的 数据 类 型 不 是 高 
散 型 ， 而 是 连续 型 。 


| 树 回归 的 一 般 方 法 、 | 
(1) 收集 数据 : 采用 任意 方法 收集 数据 。 | 

(2) 准备 数据 : 需要 数值 型 的 数据 ， 标 称 型 数据 应 该 映射 成 二 值 型 数据 。 

(3) 分 析 数 据 : 绘 出 数据 的 二 维 可 视 化 显示 结果 ， 以 字典 方式 生成 树 。 

(4) 训练 算法 : 大 部 分 时 间 都 花费 在 叶 节 点 树 模型 的 构建 上 。 

(5) 测试 算法 : 使 用 测试 数据 上 的 R2 值 来 分 析 模型 的 效果 。 

(6) 使 用 算法 : 使 用 训练 出 的 树 做 预测 ， 预 测 结果 还 可 以 用 来 做 很 多 事情 


有 了 思路 之 后 就 可 以 开始 写 代 码 了 。 下 一 节 将 介绍 在 Python 中 利用 CART 算 法 构建 树 的 最 佳 方法 。 


9.2 连续 和 离散 型 特征 的 树 的 构建 


在 树 的 构建 过 程 中 ， 需要 解决 多 种 类 型 数据 的 存储 问题 。 与 第 3 章 类 似 ， 这 里 将 使 用 一 部 字 
典 来 存储 树 的 数据 结构 ， 该 字典 将 包含 以 下 4 个 元 素 。 
口 待 切 分 的 特征 。 
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口 待 切 分 的 特征 值 。 

口 右 子 树 。 当 不 再 需要 切 分 的 时 候 ， 也 可 以 是 单个 值 。 

口 左 子 树 。 与 右 子 树 类 似 。 

这 与 第 3 章 的 树 结构 有 一 点 不 同 。 第 3 章 用 一 部 字典 来 存储 每 个 切 分 , 但 该 字典 可 以 包含 两 个 
或 两 个 以 上 的 值 。 而 CART 算 法 只 做 二 元 切 分 ， 所 以 这 里 可 以 固定 树 的 数据 结构 。 树 包含 左 键 和 
右键 , 可 以 存储 另 一 棵 子 树 或 者 单个 值 。 字典 还 包含 特征 和 特征 值 这 两 个 键 , 它们 给 出 切 分 算法 
所 有 的 特征 和 特征 值 。 当 然 , 读者 可 以 用 面向 对 象 的 编程 模式 来 建立 这 个 数据 结构 。 例 如 ， 可 以 
用 下 面 的 Python 代 码 来 建立 树 节点 ， 


class treeNode(): 
def _init (self, feat, val, right, left): 
featureToSpP1iton = feat 
valueOfSplit = val 
rightBranch = right 
leftBranch = left 


当 使 用 C++ 这 样 不 太 灵 活 的 编程 语言 时 ,你 可 能 要 用 面向 对 象 编程 模式 来 实现 树 结构 。Python 
具有 足够 的 灵活 性 , 可 以 直接 使 用 字典 来 存储 树 结构 而 无 须 男 外 自 定义 一 个 类 ,从 而 有 效 地 减少 
代码 量 。Python 不 是 一 种 强 类 型 编程 语言 ， 因 此 接 下 来 会 看 到 , 树 的 每 个 分 校 还 可 以 再 包含 其 他 
树 、 数 值 型 数据 甚至 是 向 量 。 

本 章 将 构建 两 种 树 ， 第 一 种 是 9.4 节 的 回归 树 ( regression tree )， 其 每 个 叶 节 点 包含 单个 值 ; 
第 二 种 是 9.5 节 的 模型 树 ( model tree )， 其 每 个 叶 节 点 包含 一 个 线性 方程 。 创 建 这 两 种 树 时 ,我们 
将 尽量 使 得 代码 之 间 可 以 重用 。 下 面 先 给 出 两 种 树 构建 算法 中 的 一 些 共 用 代码 。 

函数 createTree () 的 伪 代 码 大 致 如 下 ， 

找到 最 佳 的 待 切 分 特征 : 

如 果 该 节点 不 能 再 分 ， 将 该 节点 存 为 叶 节 点 
执行 二 元 切 分 

在 右 子 树 调用 createTree() 方 法 

在 左 子 树 调用 createTree() 方 法 


打开 文本 编辑 器 ， 创 建文 件 regTrees .py 并 添加 如 下 代码 。 
程序 清单 9-1 CART 算 法 的 实现 代码 


fronm numpy import * 


def loadDataSet (fileName): 
dataMat = 1[] 
fr = open (fileName) 
for line in fr.readlines (): 
curLine = line.strip().split('\t') .9 将 每 行 映射 成 浮 点 数 
fltLine = map (float, curLine) 
dataMat .append (fltLine) 


return dataMat 
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def binsplitDataSet (dataset, feature, value): 
mat0 = dataSet [nonzero (dataSet[:,feature] > value) [0],:] {0] 
matl = dataSet [nonzero(dataSet [:,feature] <= value) [0],:]10] 
return mato,mat1 


def createTree(dataSet, leafType=regLeaf, errType=regErr, ops=(1,4)): 
feat, val = chooseBestSplit (dataSet, leafType, errType, ops) 


if feat == None: return val 

mce = {) 加 四 满足 停止 条 件 时 返回 肝 节 点 值 
retTree['spInd'} = feat 

retTree['spVai'} = Val 

1Set，LSet = binSplitDataSet (dataSet, feat, val) 

retTree[l'left'] = createTree{lSet, leafType, errType, ops) 

retTree[l'right'] = createTree(rSet, leafType, errType, ops) 


return retTree 

上 述 程序 清单 包含 3 个 函数 : 第 一 个 函数 是 loadDataSet () , 该 函数 与 其 他 章节 中 同名 函数 
功能 类 似 。 在 前 面 的 章节 中 , 目标 变量 会 单独 存放 其 自己 的 列表 中 , 但 这 里 的 数据 会 存放 在 一 起 。 
该 函数 读 取 一 个 以 tab 键 为 分 隔 符 的 文件 ， 然 后 将 每 行 的 内 容 保 存 成 一 组 浮 点 数 @@。 

第 二 个 函数 是 pinsplitpataset () ， 该 函数 有 3 个 参数 : 数据 集合 、 待 切 分 的 特征 和 该 特 
征 的 某 个 值 。 在 给 定 特征 和 特征 值 的 情况 下 , 该 函数 通过 数组 过 滤 方 式 将 上 述 数据 集合 切 分 得 到 
两 个 子 集 并 返回 。 

最 后 一 个 沙 数 是 树 构 建 函 数 createTree () ， 它 有 4 个 参数 : 数据 集 和 其 他 3 个 可 选 参数 。 这 
些 可 选 参数 决定 了 树 的 类 型 ， leafmype 给 出 建立 叶 节 点 的 函数 ;errmype 代 表 误 差 计算 函数 ; 
而 ops 是 一 个 包含 树 构建 所 需 其 他 参数 的 元 组 。 

疯 数 createTree() 是 一 个 递归 函数 。 该 函数 首先 尝试 将 数据 集 分 成 两 个 部 分 ， 切 分 由 函数 
chooseBestSsplit () 完 成 (这 里 未 给 出 该 函数 的 实现 )。 如 果 满 足 停止 条 件 ，chooseBest- 
Split () 将 返回 None 和 某 类 模型 的 值 @。 如 果 构 建 的 是 回归 树 ， 该 模型 是 一 个 常数 。 如 果 是 模 


、 型 树 , 其 模型 是 一 个 线性 方程 。 后 面 会 看 到 停止 条 件 的 作用 方式 。 如 果 不 满足 停止 条 件 , choose 


BestSplit () 将 创建 一 个 新 的 Python 字典 并 将 数据 集 分 成 两 份 , 在 这 两 份 数 据 集 上 将 分 别 继续 递 
归 调 用 createTree () 函数 。 

程序 清单 9-1 的 代码 很 容易 理解 , 但 其 中 的 方法 chooseBestsplit () 现在 暂时 尚未 实现 ,所 
以 函数 还 不 能 看 到 createTree() 的 实际 效果 。 但 是 下 面 可 以 先 测试 其 他 两 个 函数 的 效果 。 将 程 
序 清单 9-1 的 代码 保存 在 文件 regTrees.py 中 并 在 Python 提 示 符 下 输入 如 下 命令 : 


>>> import regTrees 

>>> testMat=mat (eye (4)) 

>>> testMat 

matrix([[ 1., 0., 0., 0.], 
[0 
[ :Qs 0.， 1 0.]， 

下 03 S05Y. Day TATT) 


这 样 就 创建 了 一 个 简单 的 矩阵 ， 现 在 按 指定 列 的 某 个 值 来 切 分 该 矩阵 。 
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>>> mat0,matl=regTrees.binSplitDataSet (testMat,1,0.5) 
>>> mato0 


matrix([{ 0., 1., 0., 0.]1) 
>>> matl | 
matrix({[ 1., 0., 0., 0.], 
tO? Ou as Om 
[ 0.， Oe Cas 1.]]) 


”很 有 趣 吧 。 下 面 给 出 回归 树 的 chooseBestsplit () 函数 ， 还 会 看 到 更 有 趣 的 结果 。 下 
一 节 将 针对 回归 树 构建 ， 在 chooseBestsplit 1() 函数 里 加 入 具体 代码 ， 之 后 就 可 以 使 用 程 
序 清单 9-1 的 CART 算 法 来 构建 回归 树 。 


“9.3 ”将 CART 算法 用 于 回归 


要 对 数据 的 复杂 关系 建 模 ,我 们 已 经 决定 借用 树 结构 来 帮助 切 分 数据 , 那么 如 何 实现 数据 的 
切 分 呢 ? 怎么 才能 知道 是 否 已 经 充分 切 分 呢 ? 这 些 问题 的 答案 取决 于 叶 节点 的 建 模 方式 。 回 归 树 
假设 叶 节点 是 常数 值 ， 这 种 策略 认为 数据 中 的 复杂 关系 可 以 用 树 结构 来 概括 。 

为 成 功 构建 以 分 段 常 数 为 叶 节点 的 树 , 需要 度量 出 数据 的 一 致 性 。 第 3 章 使 用 树 进行 分 类 ， 
会 在 给 定 节点 时 计算 数据 的 混乱 度 。 那 么 如 何 计算 连续 型 数值 的 混乱 度 呢 ? 事实 上 ， 在 数据 
集 上 计算 混乱 度 是 非常 简单 的 。 首 先 计算 所 有 数据 的 均值 ， 然 后 计算 每 条 数据 的 值 到 均值 的 
差 值 。 为 了 对 正 负 差 值 同 等 看 待 ， 一 般 使 用 绝对 值 或 平方 值 来 代替 上 述 差 值 。 上 述 做 法 有 点 
类 侯 于 前 面 介绍 过 的 统计 学 中 常用 的 方差 计算 。 唯 一 的 不 同 就 是 , 方差 是 平方 误差 的 均值 ( 均 
方差 )， 而 这 里 需要 的 是 平方 误差 的 总 值 (总 方差 )。 总 方差 可 以 通过 均 方差 乘 以 数据 集中 样 
本 点 的 个 数 来 得 到 。 

有 了 上 述 误差 计算 准则 和 上 一 节 中 的 树 构建 算法 ， 下 面 就 可 以 开始 构建 数据 集 上 的 回归 
树 了 。 


9.3.1 构建 树 


构建 回归 树 ， 需 要 补充 一 些 新 的 代码 ， 使 程序 清单 9-1 中 的 函数 createTree () 得 以 运转 。 
首先 要 做 的 就 是 实现 chooseBestsplit () 函数 。 给 定 某 个 误差 计算 方法 ， 该 函数 会 找到 数据 集 
上 最 佳 的 二 元 切 分 方式 。 另外, 该 函数 还 要 确定 什么 时 候 停止 切 分 , 一 旦 停止 切 分 会 生成 一 个 叶 
节点 。 因 此 ， 函 数 chooseBestsplit() 只 需 完成 两 件 事 : 用 最 佳 方式 切 分 数据 集 和 生成 相应 的 
叶 节 点 。 

从 程序 清单 9-1 可 以 看 出 , 除了 数据 集 以 外 , 函数 chooseBestsplit() 还 有 leafType、 
errType 和 ops 这 三 个 参数 。 其 中 leafType 是 对 创建 叶 节 点 的 函数 的 引用 ，errType 是 对 
前 面 介绍 的 总 方差 计算 函数 的 引用 ， 而 ops 是 一 个 用 户 定义 的 参数 构成 的 元 组 ， 用 以 完成 树 
的 构建 。 
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上 述 代 码 中 ， 函 数 chooseBestsplit () 最 复杂 ， 该 函数 的 目标 是 找到 数据 集 切 分 的 最 侍 
位 置 。 它 遍历 所 有 的 特征 及 其 可 能 的 取 值 来 找到 使 误差 最 小 化 的 切 分 贱 值 。 该 函数 的 伪 代 码 大 


致 如 下 : 


对 每 个 特征 : 


对 每 个 特征 值 : 
将 数据 集 切 分 成 两 份 
计算 切 分 的 误差 ， 
如 果 当 前 误差 小 于 当前 最 小 误差 ,那么 将 当前 切 分 设 定 为 最 佳 切 分 并 更 新 最 小 误差 


返回 最 佳 切 分 的 特征 和 阔 值 
下 面 给 出 上 述 三 个 函数 的 具体 实现 代码 。 打 开 regTrees.py 文 件 并 加 入 程序 清单 9-2 中 的 代码 。 
程序 清单 9-2 ”回归 树 的 切 分 函数 


def 


def 


def 


regLeaf (dataSet): 
return mean (dataSet[:,-1]) 


regErr (GataSet) : 
return var(dataSet[:,-1]) * shape(dqataSet) [0] 


chooseBestSsplit (dataSet, leafType=regLeaf, errType=regErr, ops=(1,4)): 
tolS = ops[0]; tolN = ops [1] 
if len(set (dataSet[:,-1] .T.tolist()[0])) == 1: 2 如 果 所 有 值 相等 则 退出 
return None, leafType {dataset) 
m,n = shape (dataSet) 
S = errType (dataSet) 
bests = inf; bestIindex = 0; bestValue = 0 
for featIndex in range(n-1): 
for splitvVval in set (dataSet [:,featIindex]): 
mat0，mat1l = binsplitDataset (dataSet, featIndex, splitVal) 
if (shape (mat0) 50] < tolN) or (shape (mat1) [0] < tolN): continue 
newSs = errType (mat0) + errType (mat1) 
if newS < bests: 
bestIindex = featIindex 
bestValue = splitVal 
best8 = DewS 如 果 误 差 减 少 不 大 则 退出 
if (S - bestS) < tolS， 
return None, leafType (dataSet) 
mat0, matl = binSplitDataSet (dataSet, bestIndex, bestValue) 如 果 切 分 出 的 数据 
if (shabe (mat0) [0] < tolN) or (shape (mat1) [0] < tolN) : 作 集 很 小 则 退出 
return None, leafType (dataSet) 
return bestIndex, bestValue 


上 述 程序 清单 中 的 第 一 个 函数 是 regLeaf () ， 它 负责 生成 叶 节 点 。 当 chooseBestsplit () 
函数 确定 不 再 对 数据 进行 切 分 时 ， 将 调用 该 regLeaf () 函数 来 得 到 叶 节 点 的 模型 。 在 回归 树 中 ， 
该 模型 其 实 就 是 目标 变量 的 均值 。 

第 二 个 函数 是 误差 估计 函数 regErr ()。 该 函数 在 给 定数 据 上 计算 目标 变量 的 平方 误差 。 当 
然 也 可 以 先 计 算出 均值 , 然后 计算 每 个 差 值 再 平方 ,但 这 里 直接 调用 均 方差 函数 var () 更 加 方便 。 
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因为 这 里 需要 返回 的 是 总 方差 ， 所 以 要 用 均 方差 乘 以 数据 集中 样本 的 个 数 。 

第 三 个 函数 是 chooseBestsplit () ， 它 是 回归 树 构建 的 核心 函数 。 该 函数 的 目的 是 找到 数 
据 的 最 佳 二 元 切 分 方式 。 如 果 找 不 到 一 个 “好 ”的 二 元 切 分 ， 该 函数 返回 None 并 同时 调用 
createTree () 方 法 来 产生 叶 节 点 ， 叶 节点 的 值 也 将 返回 None。 接 下 来 将 会 看 到 ， 在 函数 
chooseBestSsplit() 中 有 三 种 情况 不 会 切 分 ， 而 是 直接 创建 叶 节点 。 如 果 找 到 了 一 个 “好 ”的 切 
分 方式 ， 则 返回 特征 编号 和 切 分 特征 值 。 

函数 chooseBestsplit () 一 开始 为 ops 设 定 了 tolS 和 tolN 这 两 个 值 。 它们 是 用 户 指定 的 参 
数 , 用 于 控制 函数 的 停止 时 机 。 其 中 变量 tols 是 容许 的 误差 下 降 值 ，tolN 是 切 分 的 最 少 样本 数 。 
接 下 来 通过 对 当前 所 有 目标 变量 建立 一 个 集合 ， 函 数 chooseBestsp1lit () 会 统计 不 同 剩余 特征 
值 的 数目 。 如 果 该 数目 为 1， 那 么 就 不 需要 再 切 分 而 直接 返回 全 。 然 后 函数 计算 了 当前 数据 集 的 
大 小 和 误差 。 该 误差 s 将 用 于 与 新 切 分 误差 进行 对 比 ， 来 检查 新 切 分 能 否 降 低 误差 。 下 面 很 快 就 
会 看 到 这 一 点 。 

这 样 , 用 于 找到 最 佳 切 分 的 几 个 变量 就 被 建立 和 初始 化 了 。 下面 就 将 在 所 有 可 能 的 特征 及 其 
可 能 取 值 上 遍历 , 找到 最 佳 的 切 分 方式 。 最 佳 切 分 也 就 是 使 得 切 分 后 能 达到 最 低 误 差 的 切 分 。 如 
果 切 分 数据 集 后 效果 提升 不 够 大 , 那么 就 不 应 进行 切 分 操作 而 直接 创建 叶 节 点 @。 另外 还 需要 检 
查 两 个 切 分 后 的 子 集 大 小 ， 如 果 某 个 子 集 的 大 小 小 于 用 户 定义 的 参数 tolN， 那 么 也 不 应 切 分 。 
最 后 ， 如 果 这 些 提前 终止 条 件 都 不 满足 ， 那 么 就 返回 切 分 特征 和 特征 值 @@。 


9.3.2 ”运行 代码 


下 面 在 一 些 数 据 上 看 看 上 节 代 码 的 实际 效果 ， 以 图 9-1 的 数据 为 例 ， 我 们 的 目标 是 从 该 数据 
生成 一 棵 回归 树 。 
将 程序 清单 9-2 中 的 代码 添加 到 regTrees.py 文 件 并 保存 ， 然 后 在 Python 提示 符 下 输入 : 


>>>reload (regTrees) 
<module 'regTrees' from 'regTrees.pyc'> 
>>> from numpy import * 


图 9-1 的 数据 存储 在 文件 ex00.txt 中 。 


>>> myDat=regTrees.loadDataSet ('ex00 .txt') 
>>> myMat = mat (myDat) 

>>> regTrees.createTree (myMat) 

{'spInd': 0, 'spVal': matrix([[ 0.48813]]), 
'right': -0.044650285714285733， 

'Jeft': 1.018096767241379} 
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图 9-1 基于 CART 算 法 构建 回归 树 的 简单 数据 集 
再 看 一 个 多 次 切 分 的 例子 ， 参 见 图 9-2 的 数据 集 。 
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图 9-2 用 于 测试 回归 树 的 分 段 常数 数据 集 
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图 9-2 的 数据 保存 在 一 个 以 tab 键 分 隔 的 文本 文档 ex0.txt 中 数据 。 为 从 上 述 数 据 中 构建 一 棵 回 
归 树 ， 在 Python 提示 符 下 喜人 如 下 命令 : 


>>> myDatl=regTrees.1loadDataSet ('ex0 .txt') 

>>> myMat1l=mat (myDat1) 

>>> regTrees.createTree (myMat1) 

{'spInd': 1, 'spVal': matrix([[ 0.39435]]1), 'right': {'spInd': 1, 'spVal': 
matrix([[ 0.197834]]), 'right': -0.023838155555555553, 'left': 
1.0289583666666664}, 'left': {'spInd': 1, 'spVal': matrix([[ 0.582002]])， 
'right':; 1.9800350714285717, 'left': {'spInd': 1, 'spVval': matrix([[ 
0.797583]]), 'right'; 2.9836209534883724, 'left': 3.9871632000000004})})} 


可 以 检查 一 下 该 树 的 结构 以 确保 树 中 包含 5 个 叶 节点 。 读 者 也 可 以 在 更 复杂 的 数据 集 上 构建 
回归 树 并 观察 实验 结果 。 

到 现在 为 止 , 已 经 完成 回归 树 的 构建 , 但 是 需要 某 种 措施 来 检查 构建 过 程 否 得 当 。 下 面 将 介 
绍 树 剪 枝 ( tree pruning ) 技术 ， 它 通过 对 决策 树 剪 枝 来 达到 更 好 的 预测 效果 。 


9.4” 树 剪 枝 


一 棵 树 如 果 节 点 过 多 ， 表 明 该 模型 可 能 对 数据 进行 了 “过 拟 合 ”。 那 么 ， 如 何 判断 是 否 发 生 了 
过 拟 合 ? 前 面 章 节 中 使 用 了 测试 集 上 某 种 交叉 验证 技术 来 发 现 过 拟 合 , 决策 树 亦 是 如 此 。 本 节 将 
对 此 进行 讨论 ， 并 分 析 如 何 避 免 过 拟 合 。 

通过 降低 决策 树 的 复杂 度 来 避免 过 拟 合 的 过 程 称 为 剪 枝 (pruning )。 其 实 本 章 前 面 已 经 进行 
过 剪 枝 处 理 。 在 函数 chooseBestsplit () 中 的 提前 终止 条 件 ， 实 际 上 是 在 进行 一 种 所 谓 的 预 前 
枝 (prepruning ) 操作 。 另 一 种 形式 的 剪 枝 需要 使 用 测试 集 和 训练 集 ， 称 作 后 剪 枝 ( postpruning )。 
本 节 将 分 析 后 前 枝 的 有 效 性 ， 但 首先 来 看 一 下 预 前 枝 的 不 足 之 处 。 


9.4.1” 预 剪 枝 


上 节 两 个 简单 实验 的 结果 还 是 令 人 满意 的 , 但 背后 存在 一 些 问题 。 树 构建 算法 其 实 对 输入 的 
参数 Lols 和 tolN 非 常 敏 感 ， 如 果 使 用 其 他 值 将 不 太 容 易 达 到 这 么 好 的 效果 。 为 了 说 明 这 一 点 ， 
在 Python 提 示 符 下 输入 如 下 命令 : 

>>> regTrees.createTree (myMat ,ops=(0,1)) 

与 上 节 中 只 包含 两 个 节点 的 树 相 比 , 这 里 构建 的 树 过 于 腑 肿 , 它 甚至 为 数据 集中 每 个 样本 都 
分 配 了 一 个 叶 节 点 。 

图 9-3 中 的 散 点 图 , 看 上 去 与 图 9-1 非 常 相 似 。 但 如 果 仔 细 地 观察 y 轴 就 会 发 现 , 前 者 的 数量 级 
是 后 者 的 100 倍 。 这 将 不 是 问题 , 对 吧 ? 现在 用 该 数据 来 构建 一 棵 新 的 树 (数据 存放 在 ex2.txt 中 )， 
在 Python 提 示 符 下 输入 以 下 命令 : 

>>> myDat2=regTrees.loadDataSet ('ex2.txt') 


>>> myMat2=mat (myDat2) 
>>> regTrees .createTree (myMat2) 
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{'spInd': 0, 'spVal': matrix({[ 0.499171}]]), 'right': {'spInd': 0， 
'spVal': matrix([[ 0.457563]]), 'right': -3.6244789069767438, 
'left': 7.9699461249999999 } ， 1 


0, 'spVal': matrix([[ 0.958512]]), 'right': 112.42895575000001, 
1left': 105.248 
2350000001})}}} 
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图 9-3 ”将 图 9-1 的 数据 的 y 轴 放大 100 售 后 的 新 数据 集 


不 知 你 注意 到 没有 ， 从 图 9-1 数 据 集 构建 出 来 的 树 只 有 两 个 叶 节 点 ， 而 这 里 构建 的 新 树 则 有 
很 多 叶 节点 。 产 生 这 个 现象 的 原因 在 于 ， 停 止 条 件 tols 对 误差 的 数量 级 十 分 敏感 。 如 果 在 选项 
中 花费 时 间 并 对 上 述 误差 容忍 度 取 平 方 值 ， 或 许 也 能 得 到 仅 有 两 个 叶 节 点 组 成 的 树 : 


>>> regTrees.createTree (myMat2,ops=(10000,4)) 
{'spInd': 0, 'spVal': matrix([[ 0.499171]]), 'right': -2.6377193297872341, 
'left': 101.35815937735855} 


然而 ， 通 过 不 断 修改 停止 条 件 来 得 到 合理 结果 并 不 是 很 好 的 办 法 。 事 实 上 ， 我 们 常常 甚至 不 确 
定 到 底 需 要 寻找 什么 样 的 结果 。 这 正 是 机 器 学 习 所 关注 的 内 容 ， 计 算 机 应 该 可 以 给 出 总 体 的 概 狐 。 

下 节 将 讨论 后 剪 枝 ,， 即 利用 测 人 由 于 不 需要 用 户 指 定 参数 , 后 剪 枝 是 一 
个 更 理想 化 的 前 校方 法 。 


9.4.2 ”后 剪 枝 
使 用 后 剪 枝 方法 需要 将 数据 集 分 成 测试 集 和 训练 集 。 首 先 指定 参数 , 使 得 构建 出 的 树 足 够 大 、 
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足够 复杂 , 便于 剪 枝 。 接 下 来 从 上 而 下 找到 叶 节 点 ， 用 测试 集 来 判断 将 这 些 叶 节点 合并 是 否 能 降 
低 测 斌 误差。 如果 是 的 话 就 合并 。 
函数 prune() 的 伪 代 码 如 下 : 
基于 已 有 的 树 切 分 测试 数据 ; 
” 如果 存在 任 一 子 集 是 一 棵 树 ， 则 在 该 子 集 递归 剪 枝 过 程 
计算 将 当前 两 个 叶 节点 合并 后 的 误差 
计算 不 合并 的 误差 . 
如 果 合并 会 降低 误差 的 话 ， 就 将 叶 节 点 合并 
为 了 解 实际 效果 ， 打 开 regTrees.py 并 输入 程序 清单 9-3 的 代码 。 


程序 清单 9-3 ”回归 树 前 枝 函数 
def isTree (ob]j ) : 
return (type(lobij)._ name =='dict') 


def getMean (tree) : 
if isTree(tree['right']): tree['right'] = getMean(tree['right']) 
if isTree(tree['left']): treel'left'] = getMean{(tree['left']) 
return (tree['left']+tree[l'right']}/2.0 


def prune (tree, testData): 没有 测试 数据 则 对 
if shape (testData) [01 == 0: return getMean (tree) 树 进行 塌陷 处 理 
if (IsTree (tree['right']) or isTree (tree['left'])): 

lSset, rsSet = binsplitDataSet (testData，tree['spInd']， 
treel'spval']) 
if isTree{ltree['left']): tree['left'] = prune(treef['left']}, lSet) 
if isTree (tree['right']): tree['right'] = prune(tree['right'], rset) : 
if not isTree (tree{['left']) and not isTree {tree['right'})): 
lsSet, rSet = binsplitDataSet (testData, treel'splind'], 
tree{'spVal']) 
errorNoMerge = sum(power(lSet[:,-1] - tree['left'],2)) +\ 
Sum(Power (rSet [:,-1] -~ tree['right'],2)) 
treeMean = (treel'left'l+tree[l'right'])/2.0 
errorMerge = sum(power{(testData[:,-~1l - treeMean,2)) 
if errorMerge < errorNoMerge: 
print "merging' 
return treeMean 
else: return tree 
else: return tree 


程序 清单 9-3 中 包含 三 个 函数 ，isTree () 、getMean() 和 prune()。 其 中 isTree() 用 
于 测试 输入 变量 是 否 是 一 棵 树 ， 返 回 布尔 类 型 的 结果 。 换 句 话说 ,该 函数 用 于 判断 当前 处 理 
的 节点 是 否 是 叶 节 点 。 

函数 getMean ( ) 是 一 个 递归 函数 , 它 从 上 往 下 遍历 树 直到 叶 节 点 为 止 。 如 果 找 到 两 个 叶 节 点 
则 计算 它们 的 平均 值 。 该 函数 对 树 进行 塌陷 处 理 ( 即 返回 树 平均 值 )， 在 prune ( ) 函数 中 调用 该 
函数 时 应 明确 这 一 点 。 

程序 清单 9-3 的 主 函 数 是 prune () ， 它 有 两 个 参数 : 待 剪 枝 的 树 与 剪 枝 所 需 的 测试 数据 
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testData。prune() 函数 首先 需要 确认 测试 集 是 否 为 空 候 。 一 旦 非 空 ， 则 反复 递归 调用 函数 
prune () 对 测试 数据 进行 切 分 。 因 为 树 是 由 其 他 数据 集 ( 训练 集 ) 生成 的 ， 所 以 测试 集 上 会 有 一 
些 样本 与 原 数据 集 样本 的 到 值 范围 不 同 。 一 旦 出 现 这 种 情况 应 当 怎么 办 ? 数据 发 生 过 拟 合 应 该 进 
行 剪 枝 吗 ? 或 者 模型 正确 不 需要 任何 剪 枝 ? 这 里 假设 发 生 了 过 拟 合 ， 从 而 对 树 进行 剪 枝 。 

接 下 来 要 检查 某 个 分 支 到 底 是 子 树 还 是 节点 。 如 果 是 子 树 ， 就 调用 函数 prune () 来 对 该 子 树 
进行 前 枝 。 在 对 左右 两 个 分 支 完 成 剪 枝 之 后 ， 还 需要 检查 它们 是 否 仍然 还 是 子 树 。 如 果 两 个 分 支 
已 经 不 再 是 子 树 ， 那 么 就 可 以 进行 合并 。 具 体 做 法 是 对 合并 前 后 的 误差 进行 比较 。 如 果 合 并 后 的 
误差 比 不 合并 的 误差 小 就 进行 合并 操作 ， 反 之 则 不 合并 直接 返回 。 

接 下 来 看 看 实际 效果 ,将 程序 清单 9-3 的 代码 添加 到 regTrees.py 文 件 并 保存 ， 在 Python 提示 符 
下 输入 下 面 的 命令 ; 


>>> reload (regTrees) 
<module 'regTreeg' from 'regTrees.pyc'> 


为 了 创建 所 有 可 能 中 最 大 的 树 ， 输 入 如 下 命令 : 
>>> myTree=regTrees.createTree (myMat2, ops={0,1)) 
输入 以 下 命令 导 人 测试 数据 : 


>>> myDatTest=regTrees.loadDataSet ('ex2test .txt') 
>>> myMat2Test=mat (myDatTest) 


输入 以 下 命令 ,执行 前 枝 过 程 : 

>>> regTrees.prune (myTree, myMat2Test) 
merging 

merging 

merging 


merging 
{'spInd': 0, 'spVal': matrix([{ 0.499171]]), 'right': {'spInd': 0, 'gspVal': 


oO1l, 'left'; {'gspIind': 0, 'spVal': matrix([[ 0.960398]]), 'right': 123.559747， 
'left': 112.386764}}}, 'left': 92.523991499999994}}}} 


可 以 看 到 ,大量 的 节点 已 经 被 剪 枝 掉 了 ,但 没有 像 预 期 的 那样 剪 枝 成 两 部 分 ,这 说 明 后 剪 枝 
可 能 不 如 预 剪 枝 有 效 。 一 般 地 ， 为 了 寻求 最 佳 模 型 可 以 同时 使 用 两 种 剪 枝 技术 。 

下 节 将 重用 部 分 已 有 的 树 构建 代码 来 创建 一 种 新 的 树 。 该 树 仍 采 用 二 元 切 分 , 但 叶 节 点 不 再 
是 简单 的 数值 ， 取 而 代 之 的 是 一 些 线性 模型 。 


9.5 模型 树 


用 树 来 对 数据 建 模 , 除了 把 时节 点 简单 地 设 定 为 常数 值 之 外 , 还 有 一 种 方法 是 把 叶 节点 设 定 
为 分 段 线性 函数 ， 这 里 所 谓 的 分 段 线性 (piecewise linear ) 是 指 模 型 由 多 个 线性 片段 组 成 。 如 果 
读者 仍 不 清楚 ， 下 面 很 快 就 会 给 出 样 例 来 帮助 理解 。 考 虑 图 9-4 中 的 数据 ， 如 果 使 用 两 条 直线 拟 
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合 是 否 比 使 用 一 组 常数 来 建 模 好 呢 ? 答案 显而易见 。 可 以 设计 两 条 分 别 从 0.0 ~ 0.3、 从 0.3 ~ 1.0 
的 直线 ， 于 是 就 可 以 得 到 两 个 线性 模型 。 因 为 数据 集 里 的 一 部 分 数据 〈 0.0 ~ 0.3 ) 以 某 个 线性 模 
型 建 模 ， 而 另 一 部 分 数据 (0.3 ~ 1.0 ) 则 以 另 一 个 线性 模型 建 模 ， 因 此 我 们 说 采用 了 所 谓 的 分 段 
线性 模型 。 

决策 树 相 比 于 其 他 机 器 学 习 算法 的 优势 之 一 在 于 结果 更 易 理解 。 很 显然 ,两 条 直线 比 很 多 节 
点 组 成 一 裸 大 树 更 容易 解释 。 模 型 树 的 可 解释 性 是 它 优 于 回归 树 的 特点 之 一 。 另 外 ,模型 树 也 具 
有 更 高 的 预测 准确 度 。 





-0.2 0.0 0.2 0.4 0.6 0,8 1.0 1.2 
x 


图 9-4 用 来 测试 模型 树 构建 函数 的 分 段 线性 数据 


前 面 的 代码 稍 加 修改 就 可 以 在 叶 节 点 生成 线性 模型 而 不 是 常数 值 。 下 面 将 利用 树 生成 算法 对 
数据 进行 切 分 ， 且 每 份 切 分 数据 都 能 很 容易 被 线性 模型 所 表示 。 该 算法 的 关键 在 于 误差 的 计算 。 

前 面 已 经 给 出 了 树 构建 的 代码 , 但 是 这 里 仍然 需要 给 出 每 次 切 分 时 用 于 误差 计算 的 代码 。 不 
知道 读者 是 否 还 记得 之 前 createTree () 函数 里 有 两 个 参数 从 未 改变 过 。 回 归 树 把 这 两 个 参数 男 
定 ， 而 此 处 略 做 修改 ， 从 而 将 前 面 的 代码 重用 于 模型 树 。 

下 一 个 问题 就 是 , 为 了 找到 最 佳 切 分 , 应 该 怎样 计算 误差 呢 ? 前面 用 于 回归 树 的 误差 计算 方 
法 这 里 不 能 再 用 。 稍 加 变化 ， 对 于 给 定 的 数据 集 ， 应 该 先 用 线性 的 模型 来 对 它 进行 拟 合 ， 然 后 计 
算 真实 的 目标 值 与 模型 预测 值 间 的 差 值 。 最 后 将 这 些 差 值 的 平方 求 和 就 得 到 了 所 需 的 误差 。 为 了 
解 实际 效果 ， 打 开 regTrees.py 文 件 并 加 入 如 下 代码 。 





rn 
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程序 清单 9-4 ”模型 树 的 叶 节 点 生成 函数 


def linearSolve (dataSet): 
m,n = shape (dataSet) 
X = mat(ones({(m,n))); Y = mat (ones((m,1))) | 如 将 X 与 Y 中 的 数据 格式 化 
X[:,1:n] = dataSet{:,0:n-1]; Y = dataSet[:,-1] 
XTX = X.T*X 
if linalg.det (xTx) == 0.0: 
raise NameError('This matrix is singular, cannot do inverse,\n\ 
try increasing the second value of ops') 
WwWS = XTX.I * (X.T * Y) 
return ws,X,Y 


def modelLeaf (dataSet): 
WS,X,Y = linearSolve (dataset) 
return ws 


def modelErr (daataSet) : 
wS,X,Y = linearSolve (dataSet) 
yHat = X * ws 
return Sum (power (Y - yHat, 2)) 


上 述 程序 清单 中 的 第 一 个 函数 是 1inearsolve() ， 它 会 被 其 他 两 个 函数 调用 。 其 主要 功能 
是 将 数据 集 格式 化 成 目标 变量 Y 和 自 变 量 x @。 与 第 8 章 一 样 ， x 和 Y 用 于 执行 简单 的 线性 回归 。 另 
外 在 这 个 函数 中 也 应 当 注 意 ， 如 果 和 矩阵 的 逆 不 存在 也 会 造成 程序 异常 。 

第 二 个 函数 modelLeaf ( ) 与 程序 清单 9-2 里 的 函数 egLeaf () 类 似 ， 当 数据 不 再 需要 切 
分 的 时 候 它 负 责 生成 叶 节 点 的 模型 。 该 函数 在 数据 集 上 调用 linearsolve () 并 返回 回归 系 
数 ws。 

最 后 一 个 函数 是 modelErr () ， 可 以 在 给 定 的 数据 集 上 计算 误差 。 它 与 程序 清单 9-2 的 函数 
regErr () 类 似 ,会 被 chooseBestsplit() 调 用 来 找到 最 佳 的 切 分 。 该 函数 在 数据 集 上 调用 
linearSolve(),， 之 后 返回 yHat 和 Y 之 间 的 平方 误差 。 

至 此 ， 使 用 程序 清单 9-1 和 程序 清单 9-2 中 的 函数 构建 模型 树 的 全 部 代码 已 经 完成 。 为 了 解 实 
际 效果 ， 保 存 regTrees.py 文 件 并 在 Python 提示 符 下 输入 : 


>>> reload (regTrees) 
<module 'regTrees' from 'regTrees.pyc'> 


图 9-4 的 数据 已 保存 在 一 个 用 tab 键 为 分 隔 符 的 文本 文件 exp2.txt 里 。 


>>> myMat2 = mat {regTrees .loadDataSet ('exp2 .txt')) 


为 了 调用 函数 createTree() 和 模型 树 的 函数 ， 需 将 模型 树 函 数 作 为 createTree () 的 参 
>>> regTrees .createTree (myMat2， regTrees .modelLeaf, regTrees.modelErr, 
{1,10)) l 
{'spInd': 0, 'spVal': matrix([[ 0.285477]]), 'right': matrix([[ 
3.46877936], [ 1.18521743]]), 'left': matrix([[ 1.69855694e-03], 
[ 1.19647739e+01]])} 


可 以 看 到 ， 该 代码 以 0.285 477 为 界 创 建 了 两 个 模型 ， 而 图 9-4 的 数据 实际 在 0.3 处 分 段 。 
createTree() 生 成 的 这 两 个 线性 模型 分 别 是 y=3 .468+1.1852 和 y=0.001 6985+11.964 77x， 
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与 用 于 生成 该 数据 的 真实 模型 非常 接近 。 该 数据 实际 是 由 模型 y=3 .5+1 .0x 和 y=0+12x 再 加 上 高 
斯 噪声 生成 的 。 在 图 9-5 上 可 以 看 到 图 9-4 的 数据 以 及 生成 的 线性 模型 。 








-0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 | 
图 9-5 “在 图 9-4 数 据 集 上 应 用 模型 树 算法 得 到 的 结果 


模型 树 、 回 归 树 以 及 第 8 章 里 的 其 他 模型 ， 哪 一 种 模型 更 好 呢 ? 一 个 比较 客观 的 方法 是 计算 
相关 系数 ， 也 称 为 R 值 。 该 相关 系数 可 以 通过 调用 NumPy 库 中 的 命令 corrcoef (yHat，Yy，' 
rowvar=0) 来 求解 ， 其 中 yHat 是 预测 值 ，y 是 目标 变量 的 实际 值 。 

前 一 章 使 用 了 标准 的 线性 回归 法 ,本 章 则 使 用 了 树 回 归 法 ,下 面 将 通过 实例 对 二 者 进行 比较 ， 
最 后 用 函数 corrcoef () 来 分 析 哪 个 模型 是 最 优 的 。 


9.6 示例 : 树 回归 与 标准 回归 的 比较 


前 面 介绍 了 模型 树 、 回 归 树 和 一 般 的 回归 方法 ， 下 面 测 试 一 下 哪个 模型 最 好 。 本 节 首 先 给 出 | 
一 些 函 数 ,它们 可 以 在 树 构建 好 的 情况 下 对 给 定 的 输入 进行 预测 ,之 后 利用 这 些 函 数 来 计算 三 种 | 
回归 模型 的 测试 误差 。 这 些 模型 将 在 某 个 数据 上 进行 测试 ,该 数据 涉及 人 的 智力 水 平和 自行 车 的 
速度 的 关系 。 

这 里 的 数据 是 非 线性 的 ， 不 能 简单 地 使 用 第 8 章 的 全 局 线性 模型 建 模 。 当 然 这 里 也 需要 声明 
一 下 ， 此 数据 纯 属 虚 构 。 

下 面 先 给 出 在 给 定 输入 和 树 结构 情况 下 进行 预测 的 几 个 函数 。 打 开 regTrees.py 并 加 入 如 下 
代码 。 
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程序 清单 9-5 ”用 树 回 归 进 行 预测 的 代码 
def regTreeEval (model, inDat): 
return float (model) 


def modelTreeEval (model, inDat): 
n = shape (inDat) [1] 
X = mat(ones((1,n+1))) 
X[:,1:n+1]=inDat 
return float (X*model) 


def treeForeCast (tree, inData, modelEval=regTreeEval): 
if not isTree(tree): return modelEval (tree, inData) 
if inData[tree['spInd']] > tree['spVal']: 
if isTree(tree{'left']): 
return treeForeCast (tree{l'left:], inData , modeiEval) 


else: 
return modelEval (tree['left'], inpata) 
else: 
if isTree (tree['right']): 
return treeForeCast (tree['right'], inData , modelEval) 
else: 
return modelEval (tree['right'], inData) 


def createForeCast (tree, testData, modelEval=regTreeEval): 
m=len(testData) 
yHat=mat (zeros ( (m, 1))) 
for i in range (m) : 
yHat{i,0] = treeForeCast (tree, mat (testData[Ii]l)，modqelEval) 
return yHat 


对 于 输入 的 单个 数据 点 或 者 行 向 量 , 函数 treeForecast () 会 返回 一 个 浮 点 值 。 在 给 定 树 结 
构 的 情况 下 ,对 于 单个 数据 点 , 该 函数 会 给 出 一 个 预测 值 。 调用 函数 treeForecast () 时 需要 指 
定 树 的 类 型 ， 以 便 在 叶 节 点 上 能 够 调用 合适 的 模型 。 参 数 modelEval 是 对 叶 节 点 数据 进行 预测 
的 函数 的 引用 。 函 数 treeForeCast () 自 顶 向 下 遍历 整 棵 树 ， 直 到 命中 叶 节 点 为 止 。 一 旦 到 达 叶 
节点 ， 它 就 会 在 输入 数据 上 调用 modelEval ( ) 函数 ， 而 该 函数 的 默认 值 是 zegmreegval () 。 

要 对 回归 树叶 节点 进行 预测 ， 就 调用 函数 regTreeEval () ; 要 对 模型 树 节点 进行 预测 时 ， 
就 调用 modelTreeEval () 函数 。 它 们 会 对 输入 数据 进行 格式 化 处 理 ， 在 原 数据 矩阵 上 增加 第 0 
列 ， 然 后 计算 并 返回 预测 值 。 为 了 与 函数 modelTreegval () 保 持 一 致 ， 尽管 regTreeEval () 
只 使 用 一 个 输入 ， 但 仍 保留 了 两 个 输入 参数 。 

最 后 一 个 函数 是 createForCcast () ， 它 会 多 次 调用 treeForecast () 函数 。 由 于 它 能 够 以 
向 量 形 式 返回 一 组 预测 值 ,因此 该 函数 在 对 整个 测试 集 进 行 预测 时 非常 有 用 。 下 面 很 快 会 看 到 这 
一 点 。 

接 下 来 考虑 图 9-6 所 示 的 数据 。 该 数据 是 我 从 多 个 骑 自 行车 的 人 那里 收集 得 到 的 。 图 中 给 出 
骑 自 行车 的 速度 和 人 的 智商 之 间 的 关系 。 下 面 将 基于 该 数据 集 建立 多 个 模型 并 在 另 一 个 测试 集 上 
进行 测试 。 对 应 的 训练 集 数 据 保存 在 文件 bikeSpeedVslq_train.txt 中 ， 而 测试 集 数据 保存 在 文件 
bikeSpeedVslq_test.txt 中 。 
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0.5 四 5 10 0 25 
骑 自 行车 的 速度 
图 9-6 ”人 们 骑 自 行车 的 速度 和 他 们 智商 之 间 的 关系 数据 。 该 数据 用 于 比较 树 回 归 模 型 
和 普通 的 线性 回归 模型 


下 面 将 为 图 9-6 的 数据 构建 三 个 模型 。 首 先 ， 将 程序 清单 9-5 中 的 代码 保存 为 regTrees.py， 然 
后 在 Python 提 示 符 下 输入 以 下 命令 : 


>>>reload (regTrees) 


接 下 来 ， 利 用 该 数据 创建 一 棵 回归 树 : 


>>> trainMat=mat (regTrees.loadDataSet ('bikeSpeedVsIq train.txt')) 
>>> testMat=mat (regTrees.loadDataSet ('bikeSpeedVsIq test .txt')) 
>>> myTree=regTrees.createTree (trainMat, ops= {1,20)) 

>>> YHat = regTrees.createForeCast (myTree, testMat[:,0]) | 
>>> Corrcoef (yHat, testMat[:,1],rowvar=0) [0,1] | | 
0.96408523182221306 : 


同样 地 ， 再 创建 一 棵 模型 树 


>>> myTree=regTrees .createTree (trainMat, regTrees.modelLeaf, 
regTrees.modelErr, (1,20)) 

>>> yHat = regTrees.createForeCast (myTree, testMat[:,0], 
regTrees.modelTreepval) 

>>> Corrcoef (yHat, testMat[:,1] ,rowvar=0) [0,1] 

0.9760412191380623 


我 们 知道 ，R? 值 越 接 近 1.0 越 好 ， 所 以 从 上 面 的 结果 可 以 看 出 ， 这 里 模型 树 的 结果 比 回归 树 
好 。 下 面 再 看 看 标准 的 线性 回归 效果 如 何 ， 这 里 无 须 导 和 第 8 章 的 任何 代码 ， 本 章 已 实现 过 一 个 
线性 方程 求解 函数 1inearSolve() : 


>>> Ws,X,Y=regTrees.linearSolve (trainMat) 





>>> WS 
matrix([{ 37.58916794], 
[ 6.18978355]]) 


为 了 得 到 测试 集 上 所 有 的 yHat 预 测 值 ， 在 测试 数据 上 循环 执行 : 
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>>> for i in range (shape (testMat) [0]): 
YyHAt [i] =testMat [i,0] *wS [1,0]+ws [0,0] 


2 
最 后 来 看 一 下 R 值 ; 
>>> Corrcoef (yHat, testMatl{:,1]1,rowvar=0) [0,11 
0.94346842356747584 


可 以 看 到 , 该 方法 在 R" 值 上 的 表现 上 不 如 上 面 两 种 树 回归 方法 。 所 以 , 树 回 归 方 法 在 预测 复 
杂 数 据 时 会 比 简单 的 线性 模型 更 有 效 ， 相信 读者 对 这 个 结论 也 不 会 感到 意外 。 下 面 将 展示 如 何 对 
| 回归 模型 进行 定性 的 比较 。 
下 面 使 用 Python 提供 的 框架 来 构建 图 形 用 户 界 面 (GUI )， 读 者 可 以 使 用 该 GUI 来 探究 不 同 的 
回归 工具 。 


9.7 使 用 Python 的 Tkinter 库 创 建 GUI 


机 器 学 习 给 我 们 提供 了 一 些 强大 的 工具 ， 能 从 未 知 数据 中 抽取 出 有 用 的 信息 。 因 此 ,能 否 将 
这 些 信 息 以 易于 人 们 理解 的 方式 呈现 十 分 重要 。 再 者 , 假如 和 人们 可 以 直接 与 算法 和 数据 交互 , 将 
可 以 比较 轻松 地 进行 解释 。 如 果 仅 仅 只 是 绘制 出 一 幅 静 态 图 像 ， 或 者 只 是 在 Python 命令 行 中 输出 
一 些 数字 , 那么 对 结果 做 分 析 和 交流 将 非常 困难 。 如 果 能 让 用 户 不 需要 任何 指令 就 可 以 按照 他 们 
自己 的 方式 来 分 析 数 据 , 就 不 需要 对 数据 做 出 过 多 解释 。 其 中 一 个 能 同时 支持 数据 呈现 和 用 户 交 
互 的 方式 就 是 构建 一 个 图 形 用 户 界 面 (GUI，Graphical User Interface )， 如 图 9-7 所 示 。 


| 
hk [ER 


T Model Tree 








图 9-7 默认 的 treeExplore 图 形 用 户 界 面 ， 该 界面 同时 显示 了 输入 数据 和 一 个 回 妇 树 
模型 ， 其 中 的 参数 colN=10，tols=1.0 
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| ; 示例 ， 利 用 GUI 对 回归 树 调 优 

(1) 收集 数据 ;所 提供 的 文本 文件 。 

(2) 准备 数据 : 用 Python 解析 上 述 文件 ， 得 到 数值 型 数据 。 

(3) 分 析 数 据 ， 用 Tkinter 构 建 一 个 GUI 来 展示 模型 和 数据 。 

(4) 训练 算法 : 训练 一 棵 回归 树 和 一 棵 模型 树 ， 并 与 数据 集 一 起 展示 出 来 。 

(5) 测试 算法 这 里 不 需要 测试 过 程 。 

(6) 使 用 算法 : GUI 使 得 人 们 可 以 在 预 剪 枝 时 测试 不 同 参数 的 影响 ， 还 可 以 帮助 我 们 选择 
模型 的 类 型 。 


接 下 来 将 介绍 如 何 用 Python 来 构建 GUI。 首 先 介绍 如 何 利用 一 个 现 有 的 模块 Tkinter 来 构建 
GUI， 之 后 介绍 如 何在 Tkinter 和 绘图 库 之 间 交 互 ， 最 后 通过 创建 GUI 使 人 们 能 够 自己 探索 模型 树 
和 回归 树 的 奥秘 。 


9.7.1 用 Tkinter 创建 GUI 


Python 有 很 多 GUI 框 架 ， 其 中 一 个 易于 使 用 的 Tkinter， 是 随 Python 的 标准 编译 版 本 发 布 的 。 
Tkinter 可 以 在 Windows、Mac OS 和 大 多 数 的 Linux 平 台 上 使 用 。 
下 面 先 从 最 简单 的 Hello World 例 子 开 始 。 在 Python 提示 符 下 输入 以 下 命令 : 


>>> from Tkinter import * 
>>> root = Tk{) 


这 时 会 出 现 一 个 小 窗口 或 者 一 些 错误 提示 。 要 想 在 窗口 上 显示 一 些 文字 ， 可 以 输入 如 下 命令 ; 


>>> myLabel = Label (root, text='"Hello World") 
>>> myLabel .griqd () 


输入 完毕 后 ,文本 框 里 就 会 显示 出 你 刚才 输入 的 文字 。 非 常 简单 吧 ! 
为 了 程序 的 完整 ， 应 该 再 输入 以 下 命令 ; 
>>> root .mainloop () 
这 条 命令 将 启动 事件 循环 ,使 该 窗口 在 众多 事件 中 可 以 响应 鼠标 点 击 、 按 键 和 重 绘 等 动作 。 
Tkinter 的 GUI 由 一 些小 部 件 ( Widget ) 组 成 。 所 谓 小 部 件 ， 指 的 是 文本 框 ( Text Box )、 按 钮 
(Button )、 标 签 ( Label ) 和 复 选 按钮 (Check Button ) 等 对 象 。 在 刚才 的 Hello World 例 子 中 ， 标 
签 myLabel 就 是 其 中 唯一 的 小 部 件 。 当 调用 myLabel 的 .gria() 方 法 时 , 就 等 于 把 myLabel 的 位 


置 告诉 了 布局 管理 器 〈Geometry Manager )。Tkinter 中 提供 了 几 种 不 同 的 布局 管理 器 ， 其 中 


的 .grid() 方 法 会 把 小 部 件 安排 在 一 个 二 维 的 表格 中 。 用 户 可 以 设 定 每 个 小 部 件 所 在 的 行列 位 
置 。 这 里 没有 做 任何 设 定 ，myLabel 会 默认 显示 在 0 行列。 

下 面 将 所 需 的 小 部 件 集 成 在 一 起 构建 树 管理 器 。 建 立 一 个 新 的 Python 文件 treeExplorepy， 并 
在 其 中 加 入 程序 清单 9-6 的 代码 。 
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程序 清单 9-6 ”用 于 构建 树 管理 器 界面 的 Tkinter 小 部 件 


from numpy import * 


from Tkinter import * 
import regTrees 


def reDraw (tols,tolN): 
pass 


def drawNewTree () : 
pass 


root=Tk () 
Label (root, text="Plot Place Holder'") .grid(row=0, columnspan=3) 


Label (root, text='"tolN") .grid(row=1, column=0) 

tolNentry = Entry (root) 

tolNentry.grid(row=1, column=1) 

tolNentry.insert (0,'10') 

Label (root, text="tolS") .grid{row=2, column=0) 

tolsentry = Entry (root) 

tolSentry.grid(row=2, column=1) 

tolSentry.insert (0,'1.0') 

Button (root, text="ReDraw", command=drawNewTree) .grid (row=1, column=2,\ 
rowspan=3) 

chkBtnvar = IntVar() 

chkBtn = Checkbutton(root, text="Model Tree'", variable = chkBtnVvar) 

chkBtn.grid(row=3, column=0, columnspan=2) 


reDraw.rawDat = mat (regTrees.1loadDataset ('sine.txt')) 
reDraw.testDat = arange (min (reDraw.rawDat[:,0]),\ 

| max(reDraw.rawDat[:,0]),0.01) 
reDraw(1.0, 10) 


root .mainloop() 


程序 清单 9-6 的 代码 建立 了 一 组 Tkinter 模 块 ， 并 用 网 格 布局 管理 器 安排 了 它们 的 位 置 ， 这 里 
还 给 出 了 两 个 绘制 占 位 符 ( plot placeholder ) 函数 ， 这 两 个 函数 的 内 容 会 在 后 面 补充 。 这 里 所 使 
用 代码 的 格式 与 前 面 的 例子 一 致 ， 即 首先 创建 一 个 Tk 类 型 的 根部 件 然 后 插入 标签 。 读 者 可 以 使 
用 .gria() 方 法 设 定 行 和 列 的 位 置 。 另 外 ， 也 可 以 通过 设 定 coolumnspan 和 rowspan 的 值 来 告诉 
布局 管理 器 是 否 允 许 一 个 小 部 件 跨行 或 跨 列 。 除 此 之 外 还 有 其 他 设置 项 可 供 使 用 。 

还 有 一 些 新 的 小 部 件 暂 时 未 使 用 到 , 这 些小 部 件 包括 文本 输入 框 ( Entry )、 复 选 按 钮 ( check- 
button ) 和 按钮 整数 值 ( Intvar ) 等 。 其 中 Entry 部 件 是 一 个 允许 单行 文本 输入 的 文本 框 。 


Checkbutton 和 IntVar 的 功能 显而易见 : 为 了 读 取 checkbutton 的 状态 需要 创建 一 个 变量 , 也 


就 是 IntvVar。 : 

最 后 初始 化 一 些 与 reDraw() 关 联 的 全 局 变量 ， 这 些 变 量 会 在 后 面 用 到 。 这 里 没有 给 出 “ 退 
出 ”按钮 ， 因 为 如 果 用 户 想 退出 ， 可 以 通过 点 击 右 上 角 关 闭 整 个 窗口 ， 增 加 额外 的 退出 按钮 有 点 
多 此 一 举 。 假 如 读者 真 的 想 添 加 一 个 的 话 ， 可 以 输入 下 面 的 代码 来 实现 : 


Buttonl(root, text='Quit',fg="black", command=root .quit) .grid (row=1, 
column=2) 
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保存 程序 清单 9-6 的 代码 并 执行 ， 可 以 看 到 与 图 9-8 类 似 的 图 。 


pfot Place Holder 
tolN|10 


tols |10 
FF Model Tree 





图 9-8 ”使 用 多 个 Tkinter 部 件 创建 的 树 管理 器 


现在 GUI 可 以 按照 要 求 正常 运行 了 ， 下 面 利用 它 来 绘图 。 接 下 来 的 小 节 中 将 在 同一 幅 图 上 绘 
出 原始 数据 集 及 其 对 应 的 树 回归 预测 值 。 


9.7.2 ”集成 Matplotlib 和 Tkinter 


本 书 已 经 用 Matplotlib 绘 制 过 很 多 图 像 , 能 否 将 这 些 图 像 直接 放 在 GUI 上 呢 ? 下 面 将 首先 介绍 
“后 端的 概念 ， 然 后 通过 修改 Matplotlib 后 端 〈( 仅 在 我 们 的 GUI ) 达到 在 Tkinter 的 GUI 上 绘图 的 
目的 。 

Matplotlib 的 构建 程序 包含 一 个 前 端 ， 也 就 是 面向 用 户 的 一 些 代码 ， 如 plot () 和 scatter () 
方法 等 。 事实 上 ,， 它 同时 创建 了 一 个 后 端 ， 用 于 实现 绘图 和 不 同 应 用 之 间接 口 。 通 过 改变 后 端 可 
以 将 图 像 绘制 在 PNG、PDF、SVG 等 格式 的 文件 上 。 下 面 将 设置 后 端 为 TkAgg( Agg 是 一 个 C++ 
的 库 ， 可 以 从 图 像 创建 光栅 图 ? )。TkAgg 可 以 在 所 选 GUI 框 架 上 调用 Agg， 把 Age 旦 现在 画布 上 。 
我 们 可 以 在 Tk 的 GUI 上 放置 一 个 画布 ， 并 用 .gria() 来 调整 布局 。 

先 用 画布 来 焰 换 绘制 占 位 符 ， 删 掉 对 应 标签 并 添加 以 下 代码 ; 


reDraw.f = Figure (figsize=(5,4), dpi=100) 

reDraw.canvas = FigureCanvasTkAgg (reDraw.f, master=root) 
reDraw.canvas .show() 
reDraw.canvas.get tk widget() .grid(row=0, columnspan=3) 


现在 将 树 创建 函数 与 该 画布 链接 起 来 。 看 一 下 实际 效果 ,打开 treeExplore.py 并 添加 下 面 的 代 
码 。 注 意 我 们 之 前 实现 过 reDraw () 和 drawTree() 的 存根 (stub )， 确 保 同 一 个 函数 不 要 重复 
出 现 。 


程序 清单 9-7 Matplotlib 和 Tkinter 的 代码 集成 


import matplotlib 

matplotlib.use('TkAgg') 

from matplotlib.backends .backend tkagg import FigureCanvasTkAgg 
from matplotlib.figure import Figure 





GD 光栅 图 也 称 为 位 图 、 点 阵 图 、 像 素 图 ， 按 点 阵 保存 图 像 ， 放 大 会 有 失真 。 与 光栅 图 相对 的 是 矢量 图 ， 也 称 为 向 量 图 。 





wwaibbt.com DUODODOOOD 














180 第 9 章 树 回 妇 








def reDraw (tolS,tolN): 
reDraw.f.clf () 
reDraw.a = reDraw.f.add subplot (111) .9 检查 复 选 框 是 否 选中 
if chkBtnVar.get(): 
if tolN < 2: tolN = 2 
myTree=regTrees .createTree (reDraw.rawDat, regTrees.modelLeaf,\ 
regTrees.modelErr, (tolS,tolN)) 
YHat = regTrees .createForeCast (myTree, reDraw.testDat, \ 
regTrees .modelTreeEval) 
else: 
myTree=regTrees.createTree (reDraw.rawDat, ops= (tolS,tolN)) 
yHat = regTrees.createForeCast (myTree, reDraw.testDat) 
reDraw.a.scatter (reDraw.rawDat [:,0], reDraw.rawDat[:,1], s=5) 
reDraw.a.plot (reDraw.testDat, yHat, linewidth=2.0) 
reDraw. canvas. show () 


def getInputs(): 
try: tolN = int (tolNentry.get()) 


except: 
tolN = 10 
print "enter Integer for tolN" SE 、 
tolMentry.delete (0, END) 0 清除 错误 的 输入 并用 默认 值 兰 换 
tolNentry.insert (0,'10') 


try: tolSs = float (tolSentry .get ()) 
except: 
tolSs = 1.0 
print "enter Float for tolSs" 
tolSentry.delete(0, END) 
tolSentry.insert (0,'1.0') 
return tolN,tols 


def drawNewTree(): 
tolN,tolSs = getIinputs () 
reDraw (tolSs, tolN) 


上 述 程序 中 一 开始 导入 Matplotiib 文 件 并 设 定 后 端 为 TkAgg。 接 下 来 的 两 个 import 声 明 将 
TkAgg 和 Matplotlib 图 链接 起 来 。 

先 来 介绍 函数 drawNewTree () 。 从 程序 清单 9-6 可 知 , 在 有 人 点 击 ReDraw 按 钮 时 就 会 调用 该 
函数 。 函 数 实 现 了 两 个 功能 :第 一 ， 调 用 getInputs () 方 法 得 到 输入 框 的 值 ; 第 二 ， 利 用 该 值 
调用 repraw () 方 法 生成 一 个 漂亮 的 图 。 下 面 对 这 些 函 数 进行 逐个 介绍 。 

函数 getInputs () 试图 理解 用 户 的 输入 并 防止 程序 崩溃 。 其 中 tol8s 期 望 的 输入 是 译 点 数 ， 
而 tolN 期 望 的 输入 是 整数 。 为 了 得 到 用 户 输入 的 文本 ， 可 以 在 antry 部 件 上 调用 .set () 方 法 。 
虽然 表单 验证 会 在 GUI 编程 时 花费 大 量 的 时 间 ， 但 这 一 点 对 于 用 户 体验 来 说 必 不 可 少 。 另 外 ， 这 
里 使 用 了 try: 和 exoept :模式 。 如 果 Python 可 以 把 输入 文本 解析 成 整数 就 继续 执行 , 如果 不 能 识 
别 则 输出 错误 消息 ， 同 时 清空 输入 框 并 恢复 其 默认 值 @。 对 tols 而 言 也 存在 同样 的 处 理 过 程 ， 
最 后 返回 输入 值 。 

函数 reDraw() 的 主要 目的 是 把 树 绘制 出 来 。 该 函数 假定 输入 是 合法 的 , 它 首先 要 做 的 是 
清空 之 前 的 图 像 ， 使 得 前 后 两 个 图 像 不 会 重合。 清空 时 图 像 的 各 个 子 图 也 都 会 被 清除 ， 所 以 
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需要 重新 添加 一 个 新 图 。 接 下 来 函数 会 检查 复 选 框 是 否 被 选中 人 @。 根据 复 选 框 是 否 被 选中 , 确 
定 基于 tolS 和 tolN 参 数 构建 模型 树 还 是 回归 树 。 当 树 构 建 完成 之 后 就 对 测试 集 testDat 进 行 
预测 ， 该 测试 集 与 训练 集 有 相同 的 范围 且 点 的 分 布 均匀 。 最 后 ， 真 实数 据 和 预测 值 都 被 绘制 
出 来 。 具 体 实 现 是 ， 真 实 值 采用 scatter () 方 法 绘制 ， 而 预测 值 则 采用 plot () 方 法 绘制 ， 这 
是 因为 scatter () 方 法 构建 的 是 离散 型 散 点 图 ， 而 plot () 方 法 则 构建 连续 曲线 。 

下 面 看 一 下 实际 效果 ， 保 存 treeExplore.py 并 执行 。 如 果 读 者 使 用 开发 环境 IDE 来 编码 ， 那 么 
可 以 用 run 命 令 来 运行 程序 。 在 命令 行 下 可 以 直接 使 用 命令 python treeExplore.py 来 运行 。 
执行 完 之 后 应 该 可 以 看 到 类 似 于 图 9-7 的 结果 。 

图 9-7 的 GUI 包含 了 图 9-8 所 有 的 小 部 件 ， 而 占 位 符 采 用 Matplotlib 图 替换 。 默 认 情 况 下 会 给 出 
一 棵 包含 八 个 叶 节点 的 回归 树 (参见 图 9-7 )。 我 们 也 可 以 尝试 模型 树 。 通 过 选中 模型 树 的 复 选 框 ， 
再 点 击 ReDraw 按 钮 ， 就 应 该 可 以 看 到 类 似 于 图 9-9 的 模型 树 结果 。 

















和 Model Tree 





图 9-9 用 treeExplore 的 GUI 构 建 的 模型 树 ， 该 图 使 用 了 与 图 9-7 相 同 的 数据 和 参 
数 。 与 回归 树 相 比 ， 模 型 树 取 得 了 更 好 的 预测 效果 


读者 可 以 在 上 述 treeExplore 中 尝试 不 同 的 参数 值 。 整 个 数据 集 包 含 200 个 样本 ， 可 以 将 
tolN 设 为 150 后 观察 执行 效果 。 为 构建 尽 可 能 大 的 树 ， 应 当 将 tolN 设 为 1， 将 tolS 设 为 0。 读 者 可 
以 测试 一 下 并 观察 执行 的 效果 。 
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9.8 本 章 小 结 


数据 集中 经 常 包含 一 些 复杂 的 相互 关系 ,使 得 输入 数据 和 目标 变量 之 间 呈 现 非 线性 关系 。 对 
这 些 复杂 的 关系 建 模 ,一 种 可 行 的 方式 是 使 用 树 来 对 预测 值 分 段 ,包括 分 段 常 数 或 分 段 直 线 。 一 
般 采 用 树 结构 来 对 这 种 数据 建 模 。 相 应 地 ， 若 叶 节 点 使 用 的 模型 是 分 段 常 数 则 称 为 回归 树 ， 若 叶 
节点 使 用 的 模型 是 线性 回归 方程 则 称 为 模型 树 。 

CART 算 法 可 以 用 于 构建 二 元 树 并 处 理 离散 型 或 连续 型 数据 的 切 分 。 若 使 用 不 同 的 误差 准则 ， 
就 可 以 通过 CART 算 法 构建 模型 树 和 回归 树 。 该 算法 构建 出 的 树 会 倾向 于 对 数据 过 拟 合 。 一 棵 过 
拟 合 的 树 常 常 十 分 复杂 , 剪 枝 技术 的 出 现 就 是 为 了 解决 这 个 问题 。 两 种 剪 枝 方法 分 别 是 预 前 枝 ( 在 
树 的 构建 过 程 中 就 进行 剪 枝 ) 和 后 剪 枝 〈 当 树 构建 完毕 再 进行 剪 枝 )， 预 剪 枝 更 有 效 但 需要 用 户 
定义 一 些 参 数 。 

Tkinter 是 Python 的 一 个 GUI 工具 包 。 虽 然 并 不 是 唯一 的 包 ， 但 它 最 常用 。 利 用 Tkinter， 我 们 
可 以 轻松 绘制 各 种 部 件 并 灵活 安排 它们 的 位 置 。 另 外 ,可 以 为 Tkinter 构 造 一 个 特殊 的 部 件 来 显示 
Matplotlib 绘 出 的 图 。 所以，Matplotlib 和 Tkinter 的 集成 可 以 构建 出 更 强大 的 GUI, 用 户 可 以 以 更 自 
然 的 方式 来 探索 机 器 学 习 算 法 的 奥妙 。 

本 章 是 回归 的 最 后 一 章 ， 和 希望 读者 没有 错过 。 接 下 来 我 们 将 离开 监督 学 习 的 岛屿 ， 驶 向 无 监 
督学 习 的 未 知 港湾 。 在 回归 和 分 类 ( 监督 学 习 ) 中 ， 目 标 变 量 的 值 是 已 知 的 。 在 后 面 的 章节 将 会 
看 到 ， 无 监督 学 习 中 上 述 条 件 将 不 再 成 立 。 下 一 章 的 主要 内 容 是 K- 均 值 聚 类 算法 。 
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无 监督 学 习 


这 一 部 分 介绍 的 是 无 监督 机 器 学 习 方 法 。 该 主题 与 前 两 部 分 有 所 不 同 。 在 无 监督 学 习 中 ， 
类 似 分 类 和 回归 中 的 上 且 标 变量 事先 并 不 存在 。 与 前 面 “对 于 输入 数据 X 能 预测 变量 Y "不同 的 是 ， 
这 里 要 回答 的 问题 是 :“ 从 数据 X 中 能 发 现 什 么 ? ”这 里 需要 回答 的 义 方面 的 问题 可 能 是 :“ 构 
成 X 的 最 佳 6 个 数据 徐 都 是 哪些 ? ”或 者 “X 中 哪 三 个 特征 最 频繁 共 现 ? ” 

第 10 章 介绍 了 无 监督 学 习 中 的 聚 类 《将 相似 项 聚 团 ) 方法 ， 包 括 k 均值 聚 类 算法 。 第 11 
章 介绍 了 基于 Apriori 算法 的 关联 分 析 或 者 称 购物 复 分 析 。 关 联 分 析 可 以 用 于 回答 “哪些 物品 经 
常 被 同时 购买 ? ”之 类 的 问题 。 无 监督 学 习 部 分 的 最 后 一 章 ， 即 第 12 章 将 介绍 一 个 更 高 效 的 关 
联 分 析 算法 ; FP-growth 算法 。 
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本 章 内 容 

口 K- 均 值 聚 类 算法 

口 对 聚 类 得 到 的 篮 进 行 后 处 理 
口 二 分 -均值 聚 类 算法 

口 对 地 理 位 置 进行 聚 类 


在 2000 年 和 2004 年 的 美国 总 统 大 选中 , 候选 人 的 得 票数 比较 接近 或 者 说 非常 接近 。 任 一 候选 
人 得 到 的 普选 票数 的 最 大 百分比 为 50.7%， 而 最 小 百分比 为 47.9%。 如 果 1% 的 选民 将 手中 的 选票 
投向 另外 的 候选 人 ,那么 选举 结果 就 会 截然 不 同 。 实 际 上 ， 如 果 妥 善 加 以 引导 与 吸引 ， 少 部 分 选 
' 民 就 会 转换 立场 。 尽 管 这 类 选举 者 占 的 比例 较 低 , 但 当 候选 人 的 选票 接近 时 ， 这些 人 的 立场 无 疑 
会 对 选举 结果 产生 非常 大 的 影响 ?。 如 何 找 出 这 类 选民 ， 以 及 如 何在 有 限 的 预算 下 采取 措施 来 吸 
引 他 们 ? 答案 就 是 聚 类 〈 Clustering )。 
接 下 来 介绍 如 何 通 过 聚 类 实现 上 述 目标 。 首 先 ,收集 用 户 的 信息 ， 可 以 同时 收集 用 户 满意 或 
不 满意 的 信息 ,这 是 因为 任何 对 用 户 重要 的 内 容 都 可 能 影响 用 户 的 投票 结果 。 然 后 , 将 这 些 信息 
输入 到 某 个 聚 类 算法 中 。 接 着 ， 对 聚 类 结果 中 的 每 一 个 钱 (最 好 选择 最 大 徐 )， 精 心 构造 能 够 吸 
引 该 艇 选民 的 消息 。 最 后 ， 开 展 竞选 活动 并 观察 上 述 做 法 是 否 有 效 。 
聚 类 是 一 种 无 监督 的 学 习 ， 它 将 相似 的 对 象 归 到 同一 个 复 中 。 它 有 点 像 全 自动 分 类 8。 聚 类 
方法 几乎 可 以 应 用 于 所 有 对 象 ， 秘 内 的 对 象 越 相 似 ， 聚 类 的 效果 越 好 。 本 章 要 学 习 一 种 称 为 K- 
均值 (K-means ) 聚 类 的 算法 。 之 所 以 称 之 为 K- 均 值 是 因为 它 可 以 发 现 k 个 不 同 的 禾 ， 且 每 个 簇 的 
中 心 采 用 秘 中 所 含 值 的 均值 计算 而 成 。 下 面 会 逐步 介绍 该 算法 的 更 多 细节 。 
在 介绍 K- 均 值 算法 之 前 ， 先 讨论 一 下 闭 识 别 〈cluster identification )。 复 识别 给 出 聚 类 结 





@ 对 于 微 且 标 策略 如 何 成 功用 于 2004 年 的 美国 总 统 大 选 的 细节 ， 请 参见 Foumier、Sosnik 与 Dowd 合 著 的 4pplebee's 
America ( Simon & Schuster, 2006 ) 一 书 。 
@) 这 里 的 自动 意思 是 连 类 别 体系 都 是 自动 构建 的 。 一 一 译 者 注 
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果 的 含义 。 假 定 有 一 些 数 据 ， 现 在 将 相似 数据 归 到 一 起 ， 秘 识别 会 告诉 我 们 这 些 能 到 底 都 是 
些 什么 。 聚 类 与 分 类 的 最 大 不 同 在 于 ， 分 类 的 目标 事先 已 知 ， 而 聚 类 则 不 一 样 。 因 为 其 产生 
的 结果 与 分 类 相同 ， 而 只 是 类 别 没有 预先 定义 ， 聚 类 有 时 也 被 称 为 无 监督 分 类 (unsupervised 
classification )。 

聚 类 分 析 试 图 将 相似 对 象 归 和 人 同一 焦 , 将 不 相似 对 象 归 到 不 同 簇 。 相 似 这 一 概念 取决 于 所 选 
择 的 相似 度 计 算 方法 。 前 面 章节 已 经 介绍 了 不 同 的 相似 度 计算 方法 ， 后 续 章 节 它们 会 继续 出 现 。 
到 底 使 用 哪 种 相似 度 计算 方法 取决 于 具体 应 用 。 

下 面 会 构建 K- 均 值 方法 并 观察 其 实际 效果 。 接 下 来 还 会 讨论 简单 K- 均 值 算法 中 的 一 些 缺陷 。 
为 了 解决 其 中 的 一 些 缺陷 , 可 以 通过 后 处 理 来 产生 更 好 的 艇 。 接 着 会 给 出 一 个 更 有 效 的 称 为 二 分 
K- 均 值 (bisecting k-means ) 的 育 类 算法 。 本 章 的 最 后 会 给 出 一 个 实例 ， 该 实例 应 用 二 分 K- 均 值 
算法 来 寻找 同时 造访 多 个 夜生活 热点 地 区 的 最 佳 停车 位 。 


10.1 K- 均 值 聚 类 算法 


K- 均 值 珍 类 


ae 


优点 : 容易 实现 。 
缺点 ;可 能 收 化 到 局 部 最 小 值 ， 在 大 规模 数据 集 上 收 化 较 慢 。 
适用 数据 类 型 ; 数值 型 数据 。 


K- 均 值 是 发 现 给 定数 据 集 的 k 个 秘 的 算法 。 秘 个 数 k 是 用 户 给 定 的 ， 每 一 个 秘 通 过 其 质心 
(centroid )， 即 秘 中 所 有 点 的 中 心 来 描述 
K -均值 算法 的 工作 流程 是 这 样 的 。 首 先 ， 随 机 确定 /个 初始 点 作为 质心 。 然 后 将 数据 集中 的 
每 个 点 分 配 到 一 个 徐 中 ,具体 来 讲 ， 为 每 个 点 找 距 其 最 近 的 质心 ， 并 将 其 分 配给 该 质心 所 对 应 的 
徐 。 这 一 步 完 成 之 后 ， 每 个 饼 的 质心 更 新 为 该 饼 所 有 点 的 平均 值 。 
上 述 过 程 的 伪 代 码 表示 如 下 : 
创建 个 点 作为 起 始 质 心 ( 经 常 是 随机 选择 ) 
当 任 意 一 个 点 的 徐 分 配 结果 发 生 改 变 时 
对 数据 集中 的 每 个 数据 点 
”对 每 个 质心 
计算 质心 与 数据 点 之 间 的 距离 
将 数据 点 分 配 到 距 其 最 近 的 答 
对 每 一 个 禾 ， 计 算 徐 中 所 有 点 的 均值 并 将 均值 作为 质心 
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i > 二 K: 均 信和 沫 关 的 二 般 流 程 
(1) 收集 数据 : 使 用 任意 方法 。 Ue 

(2) 准备 数据 : 需要 数值 型 数据 来 计算 距离 ， 也 可 以 将 标 称 型 数据 映射 为 二 值 型 数据 再 用 
于 距离 计算 。 

(3) 分 析 数 据 : 使 用 任意 方法 。 

(4) 训练 算法 : 不 适用 于 无 监督 学 习 ， 即 无 监督 学 习 没有 训练 过 程 。 

(5) 测试 算法 ， 观察 结果 。 可 以 使 用 量化 的 误差 指标 如 误差 平方 和 (后 面 
会 介绍 ) 来 评价 算法 的 结 

(6) 使 用 算法 : 可 以 用 pe 签 质 心 可 以 代表 整个 徐 的 数据 
来 做 出 决策 。 


上 面 提 到 “最 近 ” 质 心 的 说 法 ,意味 着 需要 进行 某 种 距离 计算 。 读 者 可 以 使 用 所 喜欢 的 
任意 距离 度量 方法 。 数 据 集 上 K- 均 值 算法 的 性 能 会 受到 所 选 距 离 计算 方法 的 影响 。 下 面 给 出 
| KK- 均值 算法 的 代码 实现 。 首 先 创建 一 个 名 为 kMeans.py 的 文件 ， 然 后 将 下 面 程序 清 单 中 的 代码 
添加 到 文件 中 。 


程序 清单 10-1 天 -均值 聚 类 支持 函数 


from numpy import * 


def loadDataset (fileName): 
dataMat = {] 
fr = open (fileName) 
for line in fr.readqlines() : 
curLine = line.strip() .split ('\t') 
flitLine = map (float, curLine) 
1 dataMat .append (fltLine) 
return dataMat 





def distEclud (vecA, vecB): 
return sqrt (sum(power(lvecaA - vecB, 2))) 


def randCent (dataSet, Kk): 
n = shape (dataSset) [1] 
centroids = mat (zeros{ (k,n))) ,| 构建 策 质 心 
for j in zange (mn) : 
miny = min(dataSet{:,j]) 
zangeJ = float (max (aataSet [:,j]) - minJ) 
centroids[:,j] = minJ + rangeJ * random.rand(k,1) 
return centroids 


程序 清单 10-1 中 的 代码 包含 几 个 K- 均 值 算法 中 要 用 到 的 辅助 函数 。 第 一 个 函数 10adData- 
Set () 和 上 一 章 完 全 相同 , 它 将 文本 文件 导 人 到 一 个 列表 中 。 文 本 文件 每 一 行为 tab 分 隔 的 浮 点 数 。 
每 一 个 列表 会 被 添加 到 dataMat 中 ， 最 后 返回 dataMat。 该 返回 值 是 一 个 包含 许多 其 他 列表 的 列 
表 。 这 种 格式 可 以 很 容易 将 很 多 值 封装 到 和 矩阵 中 。 


全 
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下 一 个 函数 aistgclud() 计算 两 个 向 量 的 欧式 距离 。 这 是 本 章 最 先 使 用 的 距离 函数 ， 也 可 
以 使 用 其 他 距离 函数 。 

最 后 一 个 函数 是 randcent () , 该 函数 为 给 定数 据 集 构建 一 个 包含 k 个 随机 质心 的 集合 。 随机 
质心 必须 要 在 整个 数据 集 的 边界 之 内 , 这 可 以 通过 找到 数据 集 每 一 维 的 最 小 和 最 大 值 来 完成 。 然 
后 生成 0 到 1.0 之 间 的 随机 数 并 通过 取 值 范围 和 最 小 值 ， 以 便 确保 随机 点 在 数据 的 边界 之 内 。 接 下 
来 看 一 下 这 三 个 函数 的 实际 效果 。 保 存 kMeans.py 文 件 ， 然 后 在 Python 提 示 符 下 输入 ; 


>>> import kMeans 
>>> from numpy import * 


要 从 文本 文件 中 构建 和 矩阵， 输入 下 面 的 命令 (第 10 章 的 源 代码 中 给 出 了 testSet.txt 的 内 容 ); 

>>> datMat=mat (kMeans .loadDataSet ('testSet .txt')) 

读者 可 以 了 解 一 下 这 个 二 维 矩 阵 ， 后 面 将 使 用 该 矩阵 来 测试 完整 的 K- 均 值 算 法 。 下 面 看 看 
randCent () 图 数 是 否 正常 运行 。 首 先 ， 先 看 一 下 矩阵 中 的 最 大 值 与 最 小 值 ， 


>>> min{(datMat [:,0]) 
matrix([[-5.379713]]) 
>>> min(datMat [: ,1]》 
matrix([[-4.232586]]) 
>>> max (datMat [:,1]) 
matrix([[ 5.1904]]) 

>>> max (datMat [:,0]) 
matrix([[ 4.838138]]) 


然后 看 看 randCcent ( ) 函数 能 否 生成 min 到 max 之 间 的 值 : 


>>> kMeans .zxandqCcent (datMat, 2) 
matrix([[-3.24278889, -0.04213842]， 
[-0.92437171, 3.19524231]]) 


从 上 面 的 结果 可 以 看 到 ， 函 数 randcent ( ) 确实 会 生成 min 到 max 之 间 的 值 。 上 述 结果 表明 ， 
这 些 函 数 都 能 够 按照 预想 的 方式 运行 。 最 后 测试 一 下 距离 计算 方法 : 


>>> kMeans.distEclud(datMat [01, datMat [1]) 
5.184632816681332 


所 有 支持 函数 正常 运行 之 后 , 就 可 以 准备 实现 完整 的 K- 均 值 算法 了 。 该 算法 会 创建 4 个 质心 ， 上 
然后 将 每 个 点 分 配 到 最 近 的 质心 ， 再 重新 计算 质心 。 这 个 过 程 重复 数 次 ,直到 数据 点 的 簇 分 配 结 " 
果 不 再 改变 为 止 。 打 开 kMeans py 文件 输入 下 面 程序 清单 中 的 代码 。 


程序 清单 10-2 K- 均 值 聚 类 算法 
def kMeans (dataSet, k, distMeas=distEclud, createCent-=randCent): 
m = shape (dataSet) [0] 
ClusterAssment = mat {zeros( (m,2))) 
centroids = createCent (dataSet, k) 
clusterChanged = True 
while clusterChanged: 
clusterChanged = False 
for i in range{(m): 
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minDist = inf; minIndex = -1 
for j in zange (k) : 寻找 最 近 的 质心 
distJI = distMeas (centtoiqs [ij,:],dataSet [i,:]) 
if distJ1r < minDist: 
minDist = GigtJI; minIindex = Jj 
if clusterAssment {i,0]} != minIndex: clusterChanged = True 
clusterAssment [i,:] = minIndex,minDist**2 eh 
print centroids 更 新 质心 的 位 置 
for cent in range (k): 
ptsIinClust = dataSet [nonzero (clusterAssment{:,0]1.A==cent) {01] 
centroids [cent,:] = mean(ptsIinClust, axis=0) 


return centroids, clusterAssment 

上 述 清单 给 出 了 K- 均 值 算 法 。kMeans () 函数 接受 4 个 输入 参数 。 只 有 数据 集 及 簇 的 数目 是 必 
选 参 数 ， 而 用 来 计算 距离 和 创建 初始 质心 的 函数 都 是 可 选 的 。kMeans () 函数 一 开始 确定 数据 集中 
数据 点 的 总 数 , 然后 创建 一 个 矩阵 来 存储 每 个 点 的 但 分配 结果 。 得分 配 结果 矩阵 clusterAssment 
包含 两 列 : 一 列 记 录 簇 索引 值 ， 第 二 列 存储 误差 。 这 里 的 误差 是 指 当前 点 到 秘 质 心 的 距离 ， 后 边 
会 使 用 该 误差 来 评价 聚 类 的 效果 。 

按照 上 述 方式 ( 即 计算 质心 -分 配 -重新 计算 ) 反复 迭代 , 直到 所 有 数据 点 的 艇 分 配 结果 不 再 
改变 为 止 。 程 序 中 可 以 创建 一 个 标志 变量 clusterchanged， 如 果 该 值 为 True， 则 继续 迄 代 。 
上 述 和 迭代 使 用 while 循 环 来 实现 。 接 下 来 遍历 所 有 数据 找到 距离 每 个 点 最 近 的 质心 ,这 可 以 通过 
对 每 个 点 遍历 所 有 质心 并 计算 点 到 每 个 质心 的 距离 来 完成 @。 计 算 距 离 是 使 用 9istMeas 参 数 给 
出 的 距离 函数 ,默认 耻 离 函数 是 distEclud() , 该 函数 的 实现 已 经 在 程序 清单 10-1 中 给 出 。 如 果 
任 一 点 的 艇 分 配 结果 发 生 改 变 ， 则 更 新 clusterchanged 标 志 。 
”最 后 , 遍历 所 有 质心 并 更 新 它们 的 取 值 @。 具体 实 现 步骤 如 下 ; 首先 通过 数组 过 滤 来 获得 给 
定 艇 的 所 有 点 ; 然后 计算 所 有 点 的 均值 ， 选 项 axis = 0 表示 沿 矩 阵 的 列 方向 进行 均值 计算 ;最 
后 ， 程 序 返回 所 有 的 类 质心 与 点 分 配 结果 。 图 10-1 给 出 了 一 个 聚 类 结果 的 示意 图 。 








-6 -4 -2 0 1 6 
图 10-1 -均值 聚 类 的 结果 示意 图 。 图 中 数据 集 在 三 次 迭代 之 后 收敛 。 形 状 相似 的 
数据 点 被 分 到 同样 的 抄 中 ， 奥 中心 使 用 十 字 来 表示 
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接 下 来 看 看 程序 清单 10-2 的 运行 效果 。 保 存 kMeans .py 文件 后 ， 在 Python 提示 符 下 输入 


>>> reload (kMeans) 
<module 'kMeans' from 'kMeans.pyc'> 


如 果 没 有 将 前 面 例子 中 的 aacMat 数 据 复制 过 来 , 则 可 以 输入 下 面 的 命令 ( 记 住 要 导 人 NumPy ): 

>>> datMat=mat (kMeans .lo0adDataSet ('testSet.txt')) 

现在 就 可 以 对 aatMat 中 的 数据 点 进行 聚 类 处 理 。 从 图 像 中 可 以 大 概 预先 知道 最 后 的 结果 应 
该 有 4 个 徐 ， 所 以 可 以 输入 如 下 命令 ， 


>>> myCentroids, clustAssing = kMeans .kMeans (QatMat ,4) 


[[-4.06724228 0.21993975] 
[ 0.73633558 -1.41299247] 
[-2.59754537, 3.15378974] 
[ 4.49190084 3.46005807]] 

[{-3.62111442 -2.36505947] 
[ 2.21588922 -2.88365904] 
[-2.38799628 2.96837672] 
[ 2.6265299 3.10868015]] 

[[-3.53973889 -2.89384326] 
[ 2.65077367 ~2.79019029] 
[-2.46154315 2.78737555] 


[ 2.6265299 3.10868015]]】 
上 面 的 结果 给 出 了 4 个 质心。 可 以 看 到 ， 经 过 3 次 迭代 之 后 K- 均 值 算法 收敛 。 这 4 个 质心 以 及 
原始 数据 的 散 点 图 在 图 10-1 中 给 出 。 
到 目前 为 止 ， 关 于 聚 类 的 一 切 进展 都 很 顺利 ,但 事情 并 不 总 是 如 此 。 接 下 来 会 讨论 K- 均 值 算 
法 可 能 出 现 的 问题 及 其 解决 办 法 。 


10.2 ”使 用 后 处 理 来 提高 聚 类 性 能 


前 面 提 到 , 在 K- 均 值 聚 类 中 艇 的 数目 是 一 个 用 户 预 先 定义 的 参数 , 那么 用 户 如 何 才 能 知道 k 
的 选择 是 否 正确 ? 如何 才 能 知道 生成 的 簇 比较 好 呢 ? 在 包含 簇 分配 结 果 的 矩阵 中 保存 着 每 个 点 
的 误差 ， 即 该 点 到 艇 质心 的 距离 平方 值 。 下 面 会 讨论 利用 该 误差 来 评价 聚 类 质量 的 方法 。 

考虑 图 10-2 中 的 聚 类 结果 ， 这 是 在 一 个 包含 三 个 簇 的 数据 集 上 运行 有 -均值 算法 之 后 的 结果 ， 
但 是 点 的 篮 分 配 结果 值 没有 那么 准确 。K- 均 值 算法 收敛 但 聚 类 效果 较 差 的 原因 是 , K- 均 值 算法 收 
敛 到 了 局 部 最 小 值 ， 而 非 全 局 最 小 值 ( 局 部 最 小 值 指 结果 还 可 以 但 并 非 最 好 结果 ， 全 局 最 小 值 是 
可 能 的 最 好 结果 )。 

一 种 用 于 度量 聚 类 效果 的 指标 是 SSE ( Sum of Squared Error， 误 差 平方 和 )， 对 应 程序 清单 10-2 
中 clusterassment 和 矩阵 的 第 一 列 之 和 。SSE 值 越 小 表示 数据 点 越 接近 于 它们 的 质心 ， 聚 类 效果 也 
越 好 。 因 为 对 误差 到 了 平方 ， 因 此 更 加 重视 那些 远离 中 心 的 点 。 一 种 肯定 可 以 降低 SSE 值 的 方法 是 
增加 簇 的 个 数 ， 但 这 违背 了 聚 类 的 目标 。 聚 类 的 目标 是 在 保持 簇 数 目 不 变 的 情况 下 提高 针 的 质量 。 

那么 如 何 对 图 10-2 的 结果 进行 改进 ? 你 可 以 对 生成 的 簇 进行 后 处 理 , 一 种 方法 是 将 具有 最 大 
SSE 值 的 徐 划 分 成 两 个 艇 。 具 体 实现 时 可 以 将 最 大 簇 包含 的 点 过 滤 出 来 并 在 这 些 点 上 运行 K- 均 值 
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算法 ， 其 中 的 k 设 为 2。 





-6 
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图 10-2 ”由 于 质心 随机 初始 化 导致 K- 均 值 算法 效果 不 好 的 一 个 例子 ， 这 需要 领 外 的 
后 处 理 操作 来 清理 聚 类 结果 


为 了 保持 簇 总 数 不 变 ， 可 以 将 某 两 个 饶 进 行 合并 。 从 图 10-2 中 很 明显 就 可 以 看 出 ,应 该 将 图 
下 部 两 个 出 错 的 复 质 心 进行 合并 。 可 以 很 容易 对 二 维 数据 上 的 聚 类 进行 可 视 化 , 但 是 如 果 遇 到 40 
维 的 数据 应 该 如 何 去 做 ? 

有 两 种 可 以 量化 的 办 法 : 合并 最 近 的 质心 ， 或 者 合并 两 个 使 得 SSE 增 幅 最 小 的 质心 。 第 一 种 
思路 通过 计算 所 有 质心 之 间 的 距离 , 然后 合并 距离 最 近 的 两 个 点 来 实现 。 第 二 种 方法 需要 合并 两 
个 簇 然 后 计算 总 SSE 值 。 必 须 在 所 有 可 能 的 两 个 灸 上 重复 上 述 处 理 过 程 ， 直 到 找到 合并 最 佳 的 两 
个 能 为 止 。 接 下 来 将 讨论 利用 上 述 篮 划 分 技术 得 到 更 好 的 聚 类 结果 的 方法 。 


10.3 二 分 K- 均 值 算法 


为 克服 K- 均 值 算 法 收敛 于 局 部 最 小 值 的 问题 ， 有 人 提出 了 另 一 个 称 为 二 分 K- 均 值 (bisecting 
K-means ) 的 算法 。 该 算法 首先 将 所 有 点 作为 一 个 秘 ， 然 后 将 该 艇 一 分 为 二 。 之 后 选择 其 中 一 个 
簇 继续 进行 划分 ， 选 择 娜 一 个 篮 进 行 划 分 取决 于 对 其 划分 是 否 可 以 最 大 程度 降低 SSE 的 值 。 上 述 
基于 SSE 的 划分 过 程 不 断 重复 ， 直 到 得 到 用 户 指定 的 簇 数 目 为 止 。 

二 分 K- 均 值 算法 的 伪 代 码 形式 如 下 : 


将 所 有 点 看 成 一 个 给 
当 笋 数目 小 于 /时 
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对 于 每 一 个 将 
计算 总 误差 


在 给 定 的 铬 上 面 进行 K- 均 值 聚 类 (大 2 ) 
计算 将 该 徐 一 分 为 二 之 后 的 总 误差 
选择 使 得 误差 最 小 的 那个 签 进 行 划分 操作 
另 一 种 做 法 是 选择 SSE 最 大 的 复 进 行 划分 ， 直 到 复数 目 达到 用 户 指定 的 数目 为 止 。 这 个 做 法 


上 听 起 来 并 不 难 实现 。 下 面 就 来 看 一 下 该 算法 的 实际 效果 。 打 开 kMeans.py 文 件 然后 加 入 下 面 程序 
清单 中 的 代码 。 


程序 清单 10-3 ”二 分 K- 均 值 聚 类 算法 
def bikmeans (aataSet，Kk，distMeas=dqistEclud) : | 
m = shape (daqataSet) [0] 5 
ClusterAssment = mat(zeros ( (m,2))) 
centroid0 = mean(dataSet, axis=0) .tolist() [0]1 四 创建 一 个 初始 入 
centList =[centroid0] 
for j in range (m) : 
clusterAssment [j,1] = distMeas (mat (centroid0), dataSet({j,:])**2 
while (len(centList) < k): 
lowestSSsSE = inf 
for i in range(len(centList)): 
ptsInCurrCluster =\ 尝试 划分 
dataSet [nonzero(clusterAssment[:,0] .A==i) [0],:] 每 一 簇 
centroidMat, splitClustAss = \ 
kMeans (ptsInCurrCluster, 2 , distMeas) 
SSeSplit = sum(splitClustAss[:,1]) 
sseNotSsplit = \ 
sum(clusterAssment [nonzero{({clusterAssment [:,0] .A!=i) [0],11} 
print "sseSplit, and notSplit: *,sseSplit,sseNotSplit 
if (sseSplit + sseNotSplit) < lowestssE: 
bestCentToSplit = i 
bestNewCents = centroidMat 
bestClustAss = splitClustAss.copy() 
lowestSSE =. sseSplit + sseNotsplit 





bestClustAss [nonzero (bestClustAss[{[:,0] .A == 1) [01,0] =\ 更 新 纺 的 
len (centList) 分 配 结果 

bestClustAss {nonzero (bestClustAss[:,0] .A == 0) [0] ,0] =\ 站 
bestCentToSplit 

print 'the bestCentToSplit is: ',bestCentToSplit 


print 'the len of bestClustAss is: ', len{bestClustAss) 
centList[bestCentToSplit] = bestNewCents [0,:] 
centList.append (bestNewCents[1,:]) 
clusterAssment [nonzero(clusterAssment [:,0] .A == 
bestCentToSplit) [0] ,:]= bestClustAss 
return mat (centList), clusterAssment 


上 述 程序 中 的 函数 与 程序 清单 10-2 中 函数 kMeans () 的 参数 相同 。 在 给 定数 据 集 、 所 期 望 的 
簇 数 目 和 距离 计算 方法 的 条 件 下 ， 丙 数 返回 队 类 结果 。 同 kMeans () 一 样 ， 用 户 可 以 改变 所 使 用 
的 上 距 离 计算 方法 。 | 
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该 函数 首先 创建 一 个 矩阵 来 存储 数据 集中 每 个 点 的 簇 分 配 结果 及 平方 误差 , 然后 计算 整个 数 
据 集 的 质心 ,并 使 用 一 个 列表 来 保留 所 有 的 质心 @。 得 到 上 述 质 心 之 后 ， 可 以 遍历 数据 集中 所 有 
点 来 计算 每 个 点 到 质心 的 误差 值 。 这 些 误差 值 将 会 在 后 面 用 到 。 

接 下 来 程序 进入 while 循 环 , 该 循环 会 不 停 对 徐 进 行 划分 ， 直 到 得 到 想 要 的 簇 数目 为 止 。 可 
以 通过 考察 徐 列 表 中 的 值 来 获得 当前 艇 的 数目 。 然 后 遍历 所 有 的 簇 来 决定 最 佳 的 艇 进 行 划分 。 为 
此 需要 比较 划分 前 后 的 SSE。 一 开始 将 最 小 SSE 置 设 为 无 穷 大 , 然后 遍历 簇 列 表 centList 中 的 每 
一 个 徐 。 对 每 个 马 ,将 该 簇 中 的 所 有 点 看 成 一 个 小 的 数据 集 ptsInCurrCluster。 将 
ptsInCurrCluster 输 入 到 函数 kMeans () 中 进行 处 理 (k = 2 )。 开 -均值 算法 会 生成 两 个 质心 
( 乱 ), 同时 给 出 每 个 艇 的 误差 值 @。 这 些 误 差 与 镜 余数 据 集 的 误差 之 和 作为 本 次 划分 的 误差 。 如 
果 该 划分 的 SSE 值 最 小 ， 则 本 次 划分 被 保存 。 一 旦 决定 了 要 划分 的 艇 ， 接 下 来 就 要 实际 执行 划分 
操作 。 划 分 操作 很 容易 ， 只 需要 将 要 划分 的 篮 中 所 有 点 的 篮 分 配 结果 进行 修改 即 可 。 当 使 用 
kMeans () 函数 并 且 指定 复数 为 2 时 , 会 得 到 两 个 编号 分 别 为 0 和 1 的 结果 簇 。 需 要 将 这 些 篮 编 号 修 
改 为 划分 簇 及 新 加 簇 的 编号 , 该 过 程 可 以 通过 两 个 数组 过 滤器 来 完成 固 。 最 后 ,新 的 艇 分 配 结果 
被 更 新 ， 新 的 质心 会 被 添加 到 centList 中 。 

当 while 循 环 结束 时 ， 同 kMeans () 函数 一 样 ， 函 数 返 回 质 心 列表 与 秘 分 配 结果 。 

下 面 看 一 下 实际 运行 效果 。 将 程序 清单 10-3 中 的 代码 添加 到 文件 kMeans.py 并 保存 ， 然 后 在 
Python 提 示 符 下 输入 : 


>>> reload (kMeans) 
<module 'kMeans' from 'kMeans.py'> 


可 以 在 最 早 的 数据 集 上 运行 上 述 过 程 ， 也 可 以 通过 如 下 命令 来 导 人 图 10-2 中 那个 “ 较 难 ”的 
>>> datMat3=mat (kMeans .loadDataSet ('testSet2.txt')) 
要 运行 沙 数 pikmeans () ， 输 入 如 下 命令 : 

>>> centList,myNewAssments=kMeans .bikmeans (datMat3, 3) 
sseSplit, and notSplit: 491.233299302 0.0 

the bestCentToSplit is: 0 

the len of bestClustAss is: 60 

ssesSplit, and notsplit: 75.5010709203 35.9286648164 
sseSplit, and notSplit: 21.40716341 455.304634485 
the bestCentToSplit is: 0 

the len of bestClustAss is: 40 


现在 看 看 质心 结果 : 
>>> centList 


{matrix([[-3.05126255, 3.2361123 ]])，matrix([[-0.28226155，-2.4449763 ]])， 
matrix([[ 3.1084241, 3.0396009]1)] 


上 述 函 数 可 以 运行 多 次 ， 聚 类 会 收敛 到 全 局 最 小 值 ， 而 原始 的 kMeans () 函数 偶尔 会 陷 人 局 
部 最 小 值 。 图 10-3 给 出 了 数据 集 及 运行 bikmeans () 后 的 的 质心 的 示意 图 。 
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图 10-3 运行 二 分 K- 均 值 算法 后 的 能 分 配 示意 图 ， 该 算法 总 是 产生 较 好 的 聚 类 结果 


前 面 已 经 运行 了 二 分 K- 均 值 算法 ,下面 将 该 算法 应 用 于 一 些 真实 的 数据 集 上 。 下 一 节 将 利用 
地 图 上 的 地 理 位 置 坐标 进行 聚 类 。 


10.4 示例， 对 地 图 上 的 点 进行 聚 类 


假如 有 这 样 一 种 情况 ， 你 的 朋友 Drew 和 希望 你 带 他 去 城 里 庆祝 他 的 生日 。 由 于 其 他 一 些 朋 友 
也 会 过 来 ， 所 以 需要 你 提供 一 个 大 家 都 可 行 的 计划 。Drew 给 了 你 一 些 他 希望 去 的 地 址 。 这 个 地 
址 列表 很 长 ， 有 70 个 位 置 。 我 把 这 个 列表 保存 在 文件 portland-Clubs.txt 中 ， 该 文件 和 源 代 码 一 起 
打包 。 这 些 地 址 其 实 都 在 俄勒冈 州 的 波 特 兰 地 区 。 

也 就 是 说 , 一 上 晚上 要 去 70 个 地 方 ! 你 要 决定 一 个 将 这 些 地 方 进行 聚 类 的 最 佳 策 略 ， 这 样 就 可 
以 安排 交通 工具 抵达 这 些 秘 的 质心 ， 然 后 步行 到 每 个 艇 内 地 址 。Drew 的 清单 中 虽然 给 出 了 地 址 ， 
但 是 并 没有 给 出 这 些 地 址 之 间 的 距离 远近 信息 。 因 此 ,你 要 得 到 每 个 地 址 的 纬度 和 经 度 ， 然 后 对 
这 些 地 址 进行 聚 类 以 安排 你 的 行程 。 


示例 ， 对 于 地 理 数据 应 用 工分 K 均 值 算法 | 
(1) 收集 数据 : 使 用 Yahool PlaceFinder API 收 集 数据 。 
(2) 准备 数据 ， 只 保留 经 纬度 信息 。 
(3) 分 析 数 据 : 使 用 Matplotlib 来 构建 一 个 二 维 数据 图 ， 其 中 包含 徐 与 地 图 。 
(4) 训练 算法 : 训练 不 适用 无 监督 学 习 。 
(5) 测试 算法 : 使 用 10.4 节 中 的 bikmeans () 函数 。 
(6) 使 用 算法 ， 最 后 的 输出 是 包含 簇 及 和 携 中 心 的 地 图 。 
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你 需要 一 个 服务 来 将 地 址 转换 为 纬度 和 经 度 。 幸 运 的 是 ， 雅 虎 提供 了 这 样 的 服务 。 下 面 将 介 
绍 Yahoo! PlaceFinder API 的 使 用 方法 。 然 后 ， 对 给 出 的 地 址 坐标 进行 聚 类 ， 最 后 画 出 所 有 点 以 及 
复 中 心 ， 并 看 看 聚 类 结果 到 底 如 何 。 


10.4.1 Yahoo! PlaceFinder API 


雅虎 的 牛人 们 已 经 为 我 们 提供 了 一 个 免费 的 地 址 转换 API， 该 API 对 给 定 的 地 址 返回 该 地 址 
对 应 的 纬度 与 经 度 。 访 问 下 面 的 URL 可 以 了 解 更 多 细节 ; http://developer.yahoo.com/geo/ 
placefinder/guide/。 

为 了 使 用 该 服务 , 需要 注册 以 获得 一 个 API key。 具体 地 , 你 需要 在 Yahoo! 开 发 者 网 络 ( http:// 
developer.yahoo.com/ ) 中 进行 注册 。 创 建 一 个 桌面 应 用 后 会 获得 一 个 appid。 需 要 appid 来 使 用 
geocoder。 一 个 geocoder 接 受 给 定 地 址 ， 然 后 返回 该 地 址 对 应 的 经 纬度 。 下 面 的 代码 将 上 述 所 有 
过 程 进行 了 封装 处 理 。 打 开 kMeans.py 文 件 ， 然 后 加 入 下 列 代码 。 | 


程序 清单 10-4 Yahoo! PlaceFinder API 
import urllib 
import json 
def geoGrab{(stAddress, city): 


apiStem = 'http://where.yahooapis.com/geocode?'! 

ee 2 Be 全 让 了 将 返回 类 型 设 为 JSON 
params['flags'] = 'J!' 

params['appid'] = 'ppP68N8t' 

params['location'] = '%s %s' % {stAddress, city) 

url params = urllib.urlencode (params) 

yahooApi = apiStem + url params .9 打印 输出 的 的 URL 
print yahooaApi 


c=urllib.urlopen (yahooaApi) 
return json.loads(c.read{)) 


from time import sleep 
def massPplaceFind (fileName): 
fw = open('places.txt', ‘'w') 
for line in open{(fileName) .readlines{(): 
line = line.strip!() 
lineArr = line.split{('\t') 
retDict = geoGrab {lineArr[1}, lineArr[{[2]) 
if retDict['ResultSet'} {'Error'] == 0: 
lat = float (retDict['ResultSet'] ['Results'] [0] ['latitude']) 
lng = float (retDict['ResultSet'}{'Results'] [0] ['longitude']) 
print "%s\t%f\tsf" % (lineArr[0], lat, lng) 
fw.write('%s\t%f\tsf\n' % (line, lat, lng)) 
else: print "error fetching" 
sleep (1)} 
fw.close() 


上 述 程序 包含 两 个 函数 : geoGrab () 与 massPlaceFind()。 图 数 geoGrab () 从 Yahool 返 回 
一 个 字典 ，massPlaceFind() 将 所 有 这 些 封装 起 来 并 且 将 相关 信息 保存 到 文件 中 。 





Ww aibbt. com 吕 0 












































10.4 示例 : 对 地 图 上 的 点 进行 聚 类 195 








在 函数 geoGrapb () 中 ， 首 先 为 Yahoo API 设 置 apistem， 然 后 创建 一 个 字典 。 你 可 以 为 字典 
设置 不 同 值 ， 包 括 flags = JI， 以 便 返 回 JSON 格 式 的 结果 @@。( 不 用 担心 你 不 熟悉 JSON， 它 是 
一 种 用 于 序列 化 数组 和 字典 的 文件 格式 ， 本 书 不 会 看 到 任何 JSON。JSON 是 JavaScript Object 
Notation 的 缩写 ， 有 兴趣 的 读者 可 以 在 www.json.org 找 到 更 多 信息 。) 接 下 来 使 用 urllib 的 
urLencode () 函数 将 创建 的 字典 转换 为 可 以 通过 URL 进 行 传递 的 字符 串 格 式 。 最 后 ， 打 开 URL 
读 取 返 回 值 。 由 于 返回 值 是 JSON 格 式 的 ， 所 以 可 以 使 用 JSON 的 Python 模块 来 将 其 解码 为 一 个 字 
典 。 一 旦 返回 了 解码 后 的 字典 ， 也 就 意味 着 你 成 功 地 对 一 个 地 址 进行 了 地 理 编 码 。 

程序 清单 10-4 中 的 第 二 个 函数 是 massPlaceFind() 。 该 函数 打开 一 个 tab 分 隔 的 文本 文件 , 获取 
第 2 列 和 第 3 列 结果 。 这 些 值 被 输入 到 函数 geoGrab () 中 ， 然 后 需要 检查 geoGrab ( ) 的 输出 字典 判断 
有 没有 错误 。 如 果 没 有 错误 ， 就 可 以 从 字典 中 读 取经 纬度 。 这 些 值 被 添加 到 原来 对 应 的 行 上 ， 同 时 
写 到 一 个 新 的 文件 中 。 如 果 有 错误 ， 就 不 需要 去 抽取 纬度 和 经 度 。 最 后 ， 调 用 sleep () 函数 将 
massPlaceFind() 函数 延迟 1 秒 。 这 样 做 是 为 了 确保 不 要 在 短 时 间 内 过 于 频繁 地 调用 API。 如 果 频 繁 
调用 ， 那 么 你 的 请 求 可 能 会 被 封 掉 ， 所 以 将 nassPlaceFind() 函数 的 调用 延迟 一 下 比较 好 。 

保存 kMeans.py 文 件 后 ， 在 Python 提示 符 下 输入 : 


>>> reload (kMeans) 
<module 'kMeans' from 'kMeans.py'> 


要 尝试 geoGrab， 输 入 街道 地 址 和 城市 的 字符 串 ， 比 如 ; 


>>> geoResults=kMeans.geoGrab('1 VA Center', 'Augusta, ME') 
http://where.yahooapis.com/ 
geocode?flags=J&location=1+VA+Center+Augusta%2C+ME&appid=ppp68N6k 


实际 使 用 的 URL 会 被 打印 出 来 , 通过 这 些 URL，, 用 户 可 以 看 到 具体 发 生 了 什么 。 如 果 并 不 想 
看 到 URL， 那么 将 程序 清单 10-4 中 的 print 语 句 注 释 掉 也 没关系 。 下 面 看 一 下 返回 结果 ， 应 该 是 
一 个 很 大 的 字典 。 


>>> geoResults 

{u'ResultSset': {u'Locale': Uu'us_US', u'ErrorMessage': u'No error', 
u’'Results': [{u'neighborhood': Uu'', u'house': u'1l', u'county': u'Kennebec 
County', u'street': u'Center St', u'radius': 500, uv'quality': 85, u'unit': 
Uu'', urcity': u'Augusta', u'countrycode': u'US', u'woeid': 12759521, 
u'xstreet': u'', u'lline4': u'United States', u'line3': u'', u'line2'.: 
u'Augusta, ME 04330-6410', u'linel': u'l Center St', u'state': u'Maine', 
u'latitude': u'44.307661', uu'hash': u'B8BE9F5EE764C449', u'unittype': u'’', 
u'offsetlat': u'44.307656', u'statecode': u'ME', u'postal': u'04330-6410', 
u'name': uU'', uU'uzip': u'04330', u'country': u'United States', 
u'longitude': u'-69.776608', u'countycode': u'', u'offsetlon': u'- 
69.776528',u'woetype': 11})}], u'version': u'1.0', u'Error'; 0, u'Found': 1, 
u'Quality': 87}} 


上 面 给 出 的 是 一 部 只 包含 键 Resultset 的 字典 ,该 字典 又 包含 分 别 以 Locale、Error- 
Message、Results、version、Error、Found 和 Quality 为 键 的 其 他 字典 。 

读者 可 以 看 一 下 所 有 这 些 键 的 内 容 ， 不 过 我 们 主要 感 兴 趣 的 还 是 Error 和 Results。 

Error 键 值 给 出 的 是 错误 编码 。0 意 味 着 没有 错误 ， 其 他 任何 值 都 代表 没有 获得 要 找 的 地 址 。 
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可 以 输入 下 面 内 容 以 获得 错误 编码 ， 


>>> deoResults['ResultSet'] ['Error'l 
0 


现在 看 一 下 纬度 和 经 度 ， 可 以 输入 如 下 命令 来 实现 : 

>>> GeoResults[l'Resultset'!l{'Results'] [0] ['longitude']} 
u'-69.776608'! 有 

>>> geoResults ['ResultSet'] {'Results'] [0] ['latitude'] 
Uu'44.307661' 


上 面 给 出 的 都 是 字符 串 ,， 可 以 使 用 float () 函数 将 它们 转换 为 浮 点 数 。 下 面 看 看 在 多 行 上 的 
运行 效果 ， 输 入 命令 执行 程序 清单 10-4 中 的 第 二 个 函数 : 


>>> kMeans .massPlaceFind{'portlandClubs .txt') 


Dolphin II 45.486502 -122.788346 
Magic Garden 45.524692 -122.674466 
Mary's Club 45.535101 -122.667390 
Montego's 45.504448 -122.500034 


这 会 在 你 的 工作 目录 下 生成 一 个 称 为 places.txt 的 文本 文件 。 接 下 来 将 使 用 这 些 点 进行 聚 类 ， 
并 将 俱乐部 以 及 它们 的 篮 中 心 画 在 城市 地 图 上 。 


10.4.2 ”对 地 理 坐 标 进行 聚 类 


现在 我 们 有 一 个 包含 格式 化 地 理 坐 标的 列表 , 接 下 来 可 以 对 这 些 俱乐部 进行 聚 类 。 在 此 过 程 
中 使 用 Yahoo! PlaceFinder API 来 获得 每 个 点 的 纬度 和 经 度 。 下 面 需要 使 用 这 些 信息 来 计算 数据 点 
与 艇 质心 的 距离 。 

这 个 例子 中 要 育 类 的 俱乐部 给 出 的 信息 为 经 度 和 维度 , 但 这 些 信 息 对 于 距离 计算 还 不 够 。 在 
北极 附近 每 走 几米 的 经 度 变 化 可 能 达到 数 10 度 ; 而 在 赤道 附近 走 相 同 的 距离 , 带 来 的 经 度 变 化 可 
能 只 是 零点 几 。 可 以 使 用 球面 余弦 定理 来 计算 两 个 经 纬度 之 间 的 距离 。 为 实现 上 距 离 计 算 并 将 聚 类 
后 的 俱乐部 标识 在 地 图 上 ， 打 开 kMeans.py 文 件 ， 添 加 下 面 程序 清单 中 的 代码 。 


程序 清单 10-5 ”球面 距离 计算 及 艇 绘图 函数 
def distsLC(vecA, vecB): 
a = sin({vecA[0,1]*pi/180) * sin{(vecB{0,1]*pi/180) 
b = cogs (vecR[0,1]x*pi/V180) * cos(vecB[0,1]*pi/180) * \ 
Cos(pi * (vecB[0,0]-vecRhi0,01) /180) 
return axrccos (a + b)*6371.0 


import matplotlib 
import matplotlib.pyplot as plt 
def clusterClubs (numClust=5): 
datList = [] 
for line in open('places.txt') .readlines(): 
lineArr = line.split('\t') 
datList.append( [float (lineaArr[4]), float (lineArr[3])]) 
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datMat = mat (datList) 
myCentroids, clustAssing = bikmeans (datMat, numClust, \ 
distMeas=distSsLC) 
“fig = plt.figure() 
rect=[0.1,0.1,0.8,0.8] 
scatterMarkers=['S', '0', '^!', '8', 'p', \ 
dv ih, >, '<!] 
axprops = dict (xticks=[], icks= 
ee es 1aX0 **axprops) .9 基于 图 像 创建 矩 阵 
imgP = plt.imread('Portland.png') 
ax0 .imshow (imgp} 
axl=fig.add axes (rect, label='axl', frameon=False) 
for i in range (numClust): 
ptstinCurrCluster = datMat [nonzero(clustAssing[:,01.A==i) [0],:] 
markerStyle = gcatterMarkers [i 多 len(scatterMarkers)] 
ax1 .8Catter (ptsInCurrCluster{:,0] .flatten().A[0], 
ptsInCurrCluster[:,1] .flatten().A[0], 
marker=markerstyle, s=90) 
axl .scatter (myCentroids![:,0] .flatten() .A[0],\ 
myCentroids{:,1] .flatten() .A[0], marker='+', Ss=300) 
plt .show () 
上 述 程 序 清单 包含 两 个 函数 。 第 一 个 函数 distsLc () 返 回 地 球 表面 两 点 之 间 的 距离 。 第 二 个 
函数 clusterClups () 将 文本 文件 中 的 俱乐部 进行 聚 类 并 画 出 结果 。 
函数 aistsrc () 返回 地 球 表面 两 点 间 的 上 距离 ,单位 是 英里 。 给 定 两 个 点 的 经 纬度 ,可 以 使 用 
球面 余弦 定理 来 计算 两 点 的 距离 。 这 里 的 纬度 和 经 度 用 角度 作为 单位 ， 但 是 sin () 以 及 cos () 以 
弧度 为 输入 。 可 以 将 角度 除 以 180 然 后 再 乘 以 圆周 率 pi 转 换 为 弧度 。 导 人 NumPy 的 时 候 就 会 导 
人 pio 
第 二 个 函数 clusterclubs () 只 有 一 个 参数 ， 即 所 希望 得 到 的 簇 数 目 。 该 函数 将 文本 文件 的 
解析 、 育 类 以 及 画图 都 封装 在 一 起 ， 首 先 创建 一 个 空 列表 ， 然 后 打开 places.txt 文 件 获 取 第 4 列 和 
第 5 列 ， 这 两 列 分 别 对 应 纬度 和 经 度 。 基 于 这 些 经 纬度 对 的 列表 创建 一 个 矩阵 。 接 下 来 在 这 些 数 
据点 上 运行 bikmeans () 并 使 用 aiscsLc () 函数 作为 聚 类 中 使 用 的 距离 计算 方法 。 最 后 将 艇 以 及 
簇 质 心 画 在 图 上 。 
为 了 画 出 这 些 复 ， 首 先 创 建 一 幅 图 和 一 个 矩形 ， 然 后 使 用 该 矩形 来 决定 绘制 图 的 哪 一 部 分 。 
接 下 来 构建 一 个 标记 形状 的 列表 用 于 绘制 散 点 图 。 后 边 会 使 用 唯一 的 标记 来 标识 每 个 能。 下 一 步 
使 用 imread () 函数 基于 一 幅 图 像 来 创建 矩阵 人 @， 然后 使 用 imshow ( ) 绘 制 该 矩阵 。 接 下 来 ， 在 同 
一 幅 图 上 绘制 一 张 新 的 图 ， 这 人 允许 你 使 用 两 套 坐标 系统 并 且 不 做 任何 缩放 或 偏 移 。 紧 接着 ,遍历 
每 一 个 篮 并 将 它们 一 一 画 出 来 。 标记 类 型 从 前 面 创建 的 scatterMarkers 列 表 中 得 到 。 使 用 索引 
i % len (scatterMarkers) 来 选择 标记 形状 ， 这 意味 着 当 有 更 多 艇 时， 可 以 循环 使 用 这 些 标 
记 。 最 后 使 用 十 字 标 记 来 表示 簇 中 心 并 在 图 中 显示 。 
下 面 看 一 下 实际 效果 ， 保 存 kMeans.py 并 在 Python 提示 符 下 输入 如 下 命令 ， 


一 -一 
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>>> reload (kMeans)} 

<module 'kMeans' from 'kMeans.py'> 

>>> kMeans .clusterClubs (5) 

ssesSplit, and notSplit: 3073.83037149 0.0 
the bestCentToSplit is: 0 


sseSsplit, and notSplit: 307.687209245 1118.08909015 
the bestCentToSplit is: 3 
the len of bestClustAss is: 25 


执行 上 面 的 命令 后 ， 会 看 到 与 图 10-4 类 似 的 一 个 图 。 
45.65 r 
45.60 - 
45.55- | 
45.50 - 
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2 ~ -0.1 
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10-4 ”对 俄勒冈 州 波 特 兰 市 夜生活 娱乐 地 点 的 聚 类 结果 


可 以 尝试 输入 不 同 能 数目 得 到 程序 运行 的 效果 。 什 么 数目 比较 好 呢 ? 读者 可 以 思考 一 下 这 
个 问题 。 


10.5 本章 小 结 


聚 类 是 一 种 无 监督 的 学 习 方法 。 所 谓 无 监督 学 习 是 指 事先 并 不 知道 要 寻找 的 内 雁 ， 即 没有 有 目 
标 变量 。 聚 类 将 数据 点 归 到 多 个 篮 中 ， 其 中 相似 数据 点 处 于 同一 焦 ， 而 不 相似 数据 点 处 于 不 同 篮 
中 。 聚 类 中 可 以 使 用 多 种 不 同 的 方法 来 计算 相似 度 。 

一 种 广泛 使 用 的 聚 类 算法 是 K- 均 值 算法 ， 其 中 k 是 用 户 指定 的 要 创建 的 艇 的 数目 。K- 均 值 聚 
类 算法 以 个 随机 质心 开始 。 算 法 会 计算 每 个 点 到 质心 的 距离 。 每 个 点 会 被 分 配 到 距 其 最 近 的 簇 
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质心 ， 然 后 紧 接着 基于 新 分 配 到 艇 的 点 更 新 能 质心 。 以 上 过 程 重 复数 次 ， 直 到 秘 质 心 不 再 改变 。 
这 个 简单 的 算法 非常 有 效 但 是 也 容易 受到 初始 秘 质 心 的 影响 。 为 了 获得 更 好 的 聚 类 效果 , 可 以 使 
用 另 一 种 称 为 二 分 K- 均 值 的 聚 类 算法 。 二 分 K- 均 值 算法 首先 将 所 有 点 作为 一 个 和 能， 然后 使 用 K- 
均值 算法 (X= 2 ) 对 其 划分 。 下 一 次 欠 代 时 ， 选 择 有 最 大 误差 的 饶 进 行 划分 。 该 过 程 重 复 直 到 k 
个 入 创 建成 功 为 止 。 二 分 K- 均 值 的 聚 类 效果 要 好 于 K- 均 值 算法 。 

K- 均 值 算法 以 及 变形 的 K- 均 值 算法 并 非 仅 有 的 聚 类 算法 , 另外 称 为 层次 聚 类 的 方法 也 被 广泛 
使 用 。 下 一 章 将 介绍 在 数据 集中 查找 关联 规则 的 Apriori 算 法 。 
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使 用 Apriori 算 法 进 进 进行 关联 
分 析 凡 和 








人 
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本 章 内 容 
口 Apriori 算 法 
口 频繁 项 集 生成 
” 口 关联 规则 生成 
口 投票 中 的 关联 规则 发 现 


' 在 去 杂货 店 买 东 西 的 过 程 ， 实际 包含 了 许多 机 器 学 习 的 当前 及 未 来 应 用 ， 这 包括 物品 的 
展示 方式 、 购 物 之 后 优惠 券 的 提供 以 及 用 户 忠诚 度 计划 ， 等 等 。 它 们 都 离 不 开 对 大 量 数据 的 
分 析 。 商 店 希望 从 顾客 身上 获得 尽 可 能 多 的 利润 ， 所 以 他 们 必然 会 利用 各 种 技术 来 达到 这 一 
目的 。 

忠诚 度 计划 是 指 顾客 使 用 会 员 卡 可 以 获得 一 定 的 折扣 , 利用 这 种 计划 ,商店 可 以 了 解 顾客 所 
购买 的 商品 。 即 使 顾客 不 使 用 会 员 卡 ， 商 店 也 会 查看 顾客 购买 商品 所 使 用 的 信用 卡 记 录 。 如 果 顾 
客 不 使 用 会 员 卡 而 使 用 现金 付 账 ， 商店 则 可 以 查看 顾客 一 起 购买 的 商品 (如果 想 知道 商店 所 使 用 
的 更 多 技术 ， 请 参考 Stephen Baker 写 的 The Numerati 一 书 )。 
| 通过 查看 哪些 商品 经 常 在 一 起 购买 , 可 以 帮助 商店 了 解 用 户 的 购买 行为 。 这 种 从 数据 海洋 中 
抽取 的 知识 可 以 用 于 商品 定价 、 市场 促销 、 存 货 管理 等 环节 。 从 大 规模 数据 集中 寻找 物品 间 的 隐 
含 关 系 被 称 作 关联 分 析 〈association analysis ) 或 者 关联 规则 学 习 ( association rule learning )。 这 
里 的 主要 问题 在 于 ， 寻 找 物品 的 不 同 组 合 是 一 项 十 分 耗 时 的 任务 ， 所 需 的 计算 代价 很 高 ， 蛮 力 搜 
索 方 法 并 不 能 解决 这 个 问题 , 所 以 需要 用 更 智能 的 方法 在 合理 的 时 间 范 围 内 找到 频繁 项 集 。 本 章 
将 介绍 如 何 使 用 Aprior 算 法 来 解决 上 述 问题 。 

下 面 首先 详细 讨论 关联 分 析 ， 然 后 讨论 Apriori 原 理 ， Apriori 算 法 正 是 基于 该 原理 得 到 的 。 接 
下 来 创建 浮 数 频繁 项 集 高效 发 现 的 函数 ,然后 从 频繁 项 集中 抽取 出 关联 规则 。 本 章 最 后 给 出 两 个 
例子 ， 一 个 是 从 国会 投票 记录 中 抽取 出 关联 规则 ， 另 一 个 是 发 现 毒 蕊 菇 的 共同 特征 。 
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11 .1 关联 分 析 


pe i Apnon 外 活 : i nk | 
优点 ; 易 编码 实现 。 
缺点 ; 在 大 数据 集 上 可 能 较 慢 。 
.适用 数据 类 型 : 数值 型 或 者 标 称 型 数据 。 


关联 分 析 是 一 种 在 大 规模 数据 集中 寻找 有 趣 关系 的 任务 。 这 些 关 系 可 以 有 两 种 形式 : 频繁 项 
集 或 者 关联 规则 。 频 繁 项 集 ( frequent item sets ) 是 经 常 出 现在 一 块 的 物品 的 集合 ， 关 联 规则 
(association rules ) 暗 示 两 种 物品 之 间 可 能 存在 很 强 的 关系 。 下 面 会 用 一 个 例子 来 说 明 这 两 种 概念 。 
图 11-1 给 出 了 某 个 杂货 店 的 交易 清单 。 





交易 号 码 商品 
0 豆奶 ,万世 
1 黄蓉， 尿布 ， 和 葡萄酒， 甜菜 
2 豆奶 ， 尿布， 区 敬酒 ， 榜 汗 
3 黄 茎 ， 豆奶， 尿布 ， 葡 敬酒 
4 黄 芭 ， 豆奶， 尿布 ， 榜 汁 


11-1 一 个 来 自 Hole Foods 天 然 食 品 店 的 简单 交易 清单 


频繁 项 集 是 指 那些 经 常 出 现在 一 起 的 物品 集合 ， 图 11-1 中 的 集合 {葡萄 酒 ， 尿 布 , 豆奶} 就 是 频 
繁 项 集 的 一 个 例子 (回想 一 下 ， 集 合 是 由 一 对 大 括号 “{ }” 来 表示 的 )。 从 下 面 的 数据 集中 也 可 
以 找到 诸如 尿布 一 葡萄 酒 的 关联 规则 。 这 意味 着 如 果 有 人 买 了 尿布 , 那么 他 很 可 能 也 会 买 葡萄 酒 。 
使 用 频繁 项 集 和 关联 规则 ， 商 家 可 以 更 好 地 理解 他 们 的 顾客 。 尽 管 大 部 分 关联 规则 分 析 的 实例 来 
自 零售 业 ， 但 该 技术 同样 可 以 用 于 其 他 行业 ， 比 如 网 站 流量 分 析 以 及 医药 行业 。 
| i 

关联 分 析 中 最 有 名 的 例子 是 ， (尿布 与 啤酒 "。 据 报道 ， 美 国 中 西部 的 一 家 连锁 店 发 现 ， 男 
人 们 会 在 周 四 购买 尿布 和 啤酒 。 这 样 商店 实际 上 可 以 将 尿布 与 啤酒 放 在 一 块 , 并 确保 在 周 四 全 
价 销售 从 而 获 利 。 当 然 ， 这 家 商店 并 没有 这 么 做 "。 


* DSS News, “Ask Dan! What is the true story about data mining, beer and diapers?” http://www.dssresources.com/ 
newsletters/66.php, retrieved March 28, 2011. 


应 该 如 何 定义 这 些 有 趣 的 关系 ? 谁 来 定义 什么 是 有 趣 ? 当 寻 找 频 繁 项 集 时 ,频繁 ( frequent ) 
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的 定义 是 什么 ? 有 许多 概念 可 以 解答 上 述 问题 ， 不 过 其 中 最 重要 的 是 支持 度 和 可 信和 度 。 

一 个 项 集 的 支持 度 ( support ) 被 定义 为 数据 集中 包含 该 项 集 的 记录 所 占 的 比例 。 从 图 11-1 中 
可 以 得 到 ，{ 豆 奶 } 的 支持 度 为 4/5。 而 在 5 条 交易 记录 中 有 3 条 包含 {豆奶 ， 尿 布 };， 因 此 {豆奶 ， 尿 
布 } 的 支持 度 为 3/5。 支 持 度 是 针对 项 集 来 说 的 ， 因 此 可 以 定义 一 个 最 小 支持 度 ， 而 只 保留 满足 最 
小 支持 度 的 项 集 。 

可 信 度 或 置信 度 〈 confidence ) 是 针对 一 条 诸如 {尿布 } 一 {葡萄 酒 } 的 关联 规则 来 定义 的 。 这 
条 规则 的 可 信 度 被 定义 为 “支持 度 ({ 尿 布 , 葡萄 酒 })/ 支 持 度 ({ 尿 布 })”。 从 图 11-1 中 可 以 看 到 ， 由 
于 {尿布 , 葡萄酒 } 的 支持 度 为 3/5, 尿布 的 支持 度 为 4/5, 所 以 “尿布 = 葡萄酒” 的 可 信和 度 为 3/4=0.75。 
这 意味 着 对 于 包含 “尿布 ”的 所 有 记录 ， 我 们 的 规则 对 其 中 75% 的 记录 都 适用 。 

支持 度 和 可 信 度 是 用 来 量化 关联 分 析 是 否 成 功 的 方法 。 假 设想 找到 支持 度 大 于 0.8 的 所 有 项 
集 , 应 该 如 何 去 做 ? 一 个 办 法 是 生成 一 个 物品 所 有 可 能 组 合 的 清单 ， 然 后 对 每 一 种 组 合 统计 它 出 
现 的 频繁 程度 ,但 当 物 品 成 和 于 上 万 时 ， 上 述 做 法 非常 非常 慢 。 下 一 节 会 详细 分 析 这 种 情况 并 讨论 
Aprior 原 理 ， 该 原理 会 减少 关联 规则 学 习 时 所 需 的 计算 量 。 


11.2 Apriori 原理 


假设 我 们 在 经 营 一 家 商品 种 类 并 不 多 的 杂货 店 ,我 们 对 那些 经 常 在 一 起 被 购买 的 商品 非常 感 兴 
趣 。 我 们 只 有 4 种 商品 : 商品 0， 商 品 1， 商 品 2 和 商品 3。 那 么 所 有 可 能 被 一 起 购买 的 商品 组 合 都 有 
哪些 ? 这 些 商 品 组 合 可 能 只 有 一 种 商品 ， 比 如 商品 9， 也 可 能 包括 两 种 、 三 种 或 者 所 有 四 种 商品 。 
我 们 并 不 关心 某 和 人 买 了 两 件 商 品 0 以 及 四 件 商 品 2 的 情况 ， 我 们 只 关心 他 购买 了 一 种 或 多 种 商品 。 


te 


(1) 收集 数据 : 使 用 任意 方法 。 

(2) 准备 数据 ; 任何 数据 类 型 都 可 以 ， 因 为 我 们 只 保存 集合 。 
(3) 分 析 数 据 : 使 用 任意 方法 。 | 

(4) 训练 算法 : 使 用 Apriori 算 法 来 找到 频繁 项 集 。 

(5) 测试 算法 : 不 需要 测试 过 程 。 

”(6) 使 用 算法 : 用 于 发 现 频繁 项 集 以 及 物品 之 闻 的 关联 规则 。 


图 11-2 显 示 了 物品 之 间 所 有 可 能 的 组 合 。 为 了 让 该 图 更 容易 懂 ， 图 中 使 用 物品 的 编号 0 来 取 
代 物 品 0 本 身 。 男 外 ， 图 中 从 上 往 下 的 第 一 个 集合 是 名 ， 表 示 空 集 或 不 包含 任何 物品 的 集合 。 物 
品 集合 之 间 的 连 线 表明 两 个 或 者 更 多 集合 可 以 组 合 形成 一 个 更 大 的 集合 。 

前 面 说 过 ， 我 们 的 目标 是 找到 经 常 在 一 起 购买 的 物品 集合 。 而 在 11.1 节 中 ， 我 们 使 用 集合 的 
支持 度 来 度量 其 出 现 的 频率 。 一 个 集合 的 支持 度 是 指 有 多 少 比例 的 交易 记录 包含 该 集合 。 如 何 对 
一 个 给 定 的 集合 ， 比 如 {0,3}， 来 计算 其 支持 度 ? 我 们 遍历 每 条 记录 并 检查 该 记录 包含 0 和 3 ， 如 
果 记 录 确 实 同 时 包含 这 两 项 , 那么 就 增加 总 计数 值 。 在 扫描 完 所 有 数据 之 后 , 使 用 统计 得 到 的 总 
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数 除 以 总 的 交易 记录 数 ， 就 可 以 得 到 支持 度 。 上 述 过 程 和 结果 只 是 针对 单个 集合 {0,3}。 要 获得 
每 种 可 能 集合 的 支持 度 就 需要 多 次 重复 上 述 过 程 。 我 们 可 以 数 一 下 图 11-2 中 的 集合 数目 ， 会 发 现 
即使 对 于 仅 有 4 种 物品 的 集合 ， 也 需要 遍历 数据 15 次 。 而 随 着 物品 数目 的 增加 遍历 次 数 会 急剧 增 
. 长 。 对 于 包含 N 种 物品 的 数据 集 共 有 2*-1 种 项 集 组 合 。 事 实 上 ， 出 售 10 000 或 更 多 种 物品 的 商店 
并 不 少见 。 即 使 只 出 售 100 种 商品 的 商店 也 会 有 1.26 x 10 "种 可 能 的 项 集 组 合 。 对 于 现代 的 计算 机 
而 言 ， 需 要 很 长 的 时 间 才 能 完成 运算 。 


一 


ES 
的 加 让 
的 
图 11-2 集合 {0，1，2，3} 中 所 有 可 能 的 项 集 组 合 


为 了 降低 所 需 的 计算 时 间 ， 研 究 人 员 发 现 一 种 所 谓 的 Apriori 原 理 。Aprior 原 理 可 以 帮 有 我 们 减 
少 可 能 感 兴趣 的 项 集 。Apriori 原 理 是 说 如 果 某 个 项 集 是 频繁 的 ， 那 么 它 的 所 有 子 集 也 是 频繁 的 。 
对 于 图 11-2 给 出 的 例子 ， 这 意味 着 如 果 {0,1} 是 频繁 的 ， 那么 {0}、{1} 也 一 定 是 频繁 的 。 这 个 原理 


直观 上 并 没有 什么 帮助 ,但 是 如 果 反 过 来 看 就 有 用 了 ， 也 就 是 说 如 果 一 个 项 集 是 非 频 繁 集 , 那么 


它 的 所 有 超 集 也 是 非 频 繁 的 ( 如 图 11-3 所 示 )。 


1 : 和 i i . 和 


机 1 Apriof ee 人 
apriori 在 拉丁 语 中 指 “ 来 自 以 前 "。 当 定义 问题 时 ， 通常 会 使 用 先 验 知识 或 
称 作 “一 个 先 验 ”(apriori )。 在 贝 叶 斯 统计 中 ， 使 用 先 验 知识 作为 条 件 进行 推断 也 很 常见 。 先 
验 知识 可 能 来 自 领 域 知识 、 先 前 的 一 些 测量 结果 ， 等 等 。 





在 图 11-3 中 ， 已 知 阴影 项 集 {2,3} 是 非 频繁 的 。 利 用 这 个 知识 ， 我 们 就 知道 项 集 {0,2,3}， 
{12,3} 以 及 {0,1,2,3} 也 是 非 频繁 的 。 这 也 就 是 说 ， 一 且 计 算出 了 {2,3} 的 支持 度 ， 知 道 它 是 非 
频繁 的 之 后 ， 就 不 需要 再 计算 {0,2,3}、{12,33 和 {0,12,3} 的 支持 度 ， 因 为 我 们 知道 这 些 集 合 
不 会 满足 我 们 的 要 求 。 使 用 该 原理 就 可 以 避免 项 集 数目 的 指数 增长 ， 从 而 在 合理 时 间 内 计算 
出 频繁 项 集 。 
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图 11-3 图 中 给 出 了 所 有 可 能 的 项 集 ， 其 中 非 频繁 项 集 用 灰色 表示 。 由 于 集合 {2,.3} 是 非 频繁 的 ， 
因此 {0,2,3}、{1,2,3} 和 {0,1,2,3} 也 是 非 频 繁 的 ， 它 们 的 支持 度 根本 不 需要 计算 


下 一 节 将 介绍 基于 Apriori 原 理 的 Apriori 算 法 ， 并 使 用 Python 来 实现 ， 然 后 将 其 应 用 于 虚拟 商 
店 Hole Foods 的 数据 集 上 。 


11.3 ”使 用 Apriori 算法 来 发 现 频繁 集 


4 11.1 节 提 到 ， 关 联 分 析 的 目标 包括 两 项 : 发 现 频繁 项 集 和 发 现 关联 规则 。 首 先 需要 找到 频繁 
项 集 ， 然 后 才能 获得 关联 规则 。 本 节 将 只 关注 于 发 现 频繁 项 集 。 
Apriori 算 法 是 发 现 频繁 项 集 的 一 种 方法 。Apriori 算 法 的 两 个 输 和 参数 分 别 是 最 小 支持 度 和 数 
据 集 。 该 算法 首先 会 生成 所 有 单个 物品 的 项 集 列表 。 接 着 扫描 交易 记录 来 查看 哪些 项 集 满足 最 小 
支持 度 要 求 ,那些 不 满足 最 小 支持 度 的 集合 会 被 去 掉 。 然 后 ,对 剩 下 来 的 集合 进行 组 合 以 生成 包 
含 两 个 元 素 的 项 集 。 接 下 来 ， 再 重新 扫描 交易 记录 ， 去 掉 不 满足 最 小 支持 度 的 项 集 。 该 过 程 重复 
进行 直到 所 有 项 集 都 被 去 掉 。 


11.3.1 生成 候选 项 集 


在 使 用 Python 来 对 整个 程序 编码 之 前 ， 需 要 创建 一 些 辅助 函数 。 下 面 会 创建 一 个 用 于 构建 初 
始 集合 的 函数 , 也 会 创建 一 个 通过 扫描 数据 集 以 寻找 交易 记录 子 集 的 函数 。 数 据 集 扫描 的 伪 代 码 
大 致 如 下 : 
对 数据 集中 的 每 条 交易 记录 tran 
对 每 个 候选 项 集 can: 
检查 一 下 can 是 否 是 tran 的 子 集 ;: 
如 果 是 ， 则 增加 can 的 计数 值 





性 证 
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对 每 个 候选 项 集 : 

如 果 其 支持 度 不 低 于 最 小 值 ， 则 保留 该 项 集 

返回 所 有 频繁 项 集 列表 

下 面 看 一 下 实际 的 运行 效果 ， 建 立 一 个 apriori.py 文 件 并 加 入 下 列 代码 。 


程序 清单 11-1 Apriori 算 法 中 的 辅助 函数 
def loadDataset () : ‘ 
return [[1i, 3, 4], [2, 3, 5], [i, 2, 3, 5], [2, 5]] 


de 


hh 


createCcl (dataSet): 
Ci = [] 
for transaction in dataSet: 
for item in transaction: 
if not {item] in C1: 
Cl.append({ [item] ) | 


C1.gort() 2 对 C1 中 每 个 项 构建 | 


return map (frozenset, C1) 一 个 不 变 集合 


def scanD(D, Ck, minSupport): 
sscnt = {} 
for tid in D: 
for can in Ck: 
if can.issubset (tid}: 

if not ssCnt.has key{can): ssCnt[canl=1 
else: SSCnt [can]j += 1 

numItems = float (len(D)) 


retList = [] 

supportData = {} 

for key in sscnt : .9 计算 所 有 项 集 的 支持 度 
support = ssCnt [key] /numItems 


if support >= minSupport: 
retList.insert (0,key) 
supportDataf{key] = support 
return retList, supportData 


上 述 程序 包含 三 个 函数 。 第 一 个 函数 1oadDataset () 创建 了 一 个 用 于 测试 的 简单 数据 集 ， 
另外 两 个 函数 分 别 是 createc1 () 和 scanD()。 

不 言 自 名 ， 函 数 createcl () 将 构建 集合 c1。c1 是 大 小 为 1 的 所 有 候选 项 集 的 集合 。Apriori 
算法 首先 构建 集合 c1 ,然后 扫描 数据 集 来 判断 这 些 只 有 一 个 元 素 的 项 集 是 否 满足 最 小 支持 度 的 要 
求 。 那 些 满足 最 低 要 求 的 项 集 构成 集合 L1。 而 Ll 中 的 元 素 相互 组 合 构 成 c2，c2 再 进一步 过 滤 变 
为 12。 到 这 里 ， 我 想 读者 应 该 明白 了 该 算法 的 主要 思路 。 

因此 算法 需要 一 个 函数 createc1 () 来 构建 第 一 个 候选 项 集 的 列表 c1。 由 于 算法 一 开始 是 从 输 
入 数据 中 提取 候选 项 集 列表 , 所 以 这 里 需要 一 个 特殊 的 函数 来 处 理 , 而 后 续 的 项 集 列表 则 是 按 一 定 
的 格式 存放 的 。 这 里 使 用 的 格式 就 是 Python 中 的 frozenset 类 型 。frozenset 是 指 被 “冰冻 ”的 集合 ,就 
是 说 它们 是 不 可 改变 的 ， 即 用 户 不 能 修改 它们 。 这 里 必须 要 使 用 frozenset 而 不 是 se 类型， 因为 之 后 
必须 要 将 这 些 集合 作为 字典 键 值 使 用 ， 使 用 frozenset 可 以 实现 这 一 点 ， 而 set 却 做 不 到 。 

首先 创建 一 个 空 列 表 c1, 它 用 来 存储 所 有 不 重复 的 项 值 。 接 下 来 遍历 数据 集中 的 所 有 交易 记 
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录 。 对 每 一 条 记录 ， 遍 历 记 录 中 的 每 一 个 项 。 如 果 某 个 物品 项 没有 在 ci 中 出 现 ， 则 将 其 添加 到 
cl 中 。 这 里 并 不 是 简单 地 添加 每 个 物品 项 ， 而 是 添加 只 包含 该 物品 项 的 一 个 列表 2。 这 样 做 的 目 
的 是 为 每 个 物品 项 构建 一 个 集合 。 因 为 在 Apriori 算 法 的 后 续 处 理 中 ， 需 要 做 集合 操作 。Python 不 
能 创建 只 有 一 个 整数 的 集合 ， 因 此 这 里 实现 必须 使 用 列表 ( 有 兴趣 的 读者 可 以 试 一 下 )。 这 就 是 
我 们 使 用 一 个 由 单 物品 列表 组 成 的 大 列表 的 原因 。 最 后 ,对 大 列表 进行 排序 并 将 其 中 的 每 个 单元 
素 列 表 映 射 到 frozenset () ， 最 后 返回 frozenset 的 列表 人 @。 

程序 清单 11-1 中 的 第 二 个 函数 是 scanD (), 它 有 三 个 参数 ,分 别 是 数据 集 ck、 包 含 候选 集合 
的 列表 以 及 感 兴趣 项 集 的 最 小 支持 度 minsupport。 该 函数 用 于 从 c1 生 成 L1。 另 外 ,该 函数 会 返 
回 一 个 包含 支持 度 值 的 字典 以 备 后 用 。scanp () 函数 首先 创建 一 个 空 字典 sscnt ， 然 后 遍历 数据 
集中 的 所 有 交易 记录 以 及 ci 中 的 所 有 候选 集 。 如 果 ci 中 的 集合 是 记录 的 一 部 分 ， 那 么 增加 字典 
中 对 应 的 计数 值 。 这 里 字典 的 键 就 是 集合 。 当 扫描 完 数 据 集中 的 所 有 项 以 及 所 有 候选 集 时 ,就 需 
要 计算 支持 度 。 不 满足 最 小 支持 度 要 求 的 集合 不 会 输出 。 函 数 也 会 先 构 建 一 个 空 列表 , 该 列表 包 
合 满 足 最 小 支持 度 要 求 的 集合 。 下 一 个 循环 遍历 字典 中 的 每 个 元 素 并 且 计 算 支持 度 @。 如 果 支 持 
度 满足 最 小 支持 度 要 求 ， 则 将 字典 元 素 添 加 到 retList 中 。 可 以 使 用 语句 retList. 
insert (0, key) 在 列表 的 首部 插入 任意 新 的 集合 。 当 然 也 不 一 定 非 要 在 首部 插入 ， 这 只 是 为 了 
让 列表 看 起 来 有 组 织 。 函 数 最 后 返回 最 频繁 项 集 的 支持 度 supportData， 该 值 会 在 下 一 节 中 
使 用 。 

下 面 看 看 实际 的 运行 效果 。 保 存 apriori.py 之 后 ， 在 Python 提示 符 下 输入 ， 

>>> import apriori 


, 然后 导 人 数据 集 ， 
>>> dataSet=apriori .loadDataset () 
>>> dataset 
[[1, 3, 4], [2, 3, 5], [1i, 2, 3, 5S], [2, 5]] 
之 后 构建 第 一 个 候选 项 集 集 合 cl : 
>>> Cli=apriori.createC1 (dataSet) 
w»> CL 


[frozenset ({1]), frozenset ([2]), frozenset ([3]), frozenset([4]), 
frozenset ([5])] 


可 以 看 到 ，c1 包 含 了 每 个 fozenset 中 的 单个 物品 项 。 下 面 构建 集合 表示 的 数据 集 D。 


>>> D=map (set,GataSet) 


>>> D 

[set ({1, 3, 4]), set([2, 3, 5]), set([1i, 2, 3, 5]), set([2, 5])] 
有 了 集合 形式 的 数据 , 就 可 以 去 掉 那 些 不 满足 最 小 支持 度 的 项 集 。 对 上 面 这 个 例子 , 我 们 使 用 0.5 
作为 最 小 支持 度 水 平 ， 

>>> L1,suppData0=apriori.scanD(D, C1i, 0.5) 

>>> L1 

[frozenset ([1]), frozenset ([3]), frozenset ([2]), frozenset([5])] 





@ 也 就 是 说 ，Cl 是 一 个 集合 的 集合 ， 如 {{0},{1},{2},…} ， 每 次 添加 的 都 是 单个 项 构成 的 集合 {0} 、{1}、{2}…。 
”一 译 者 注 
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上 述 4 个 项 集 构成 了 L1 列 表 ， 该 列表 中 的 每 个 单 物品 项 集 至 少 出 现在 50% 以 上 的 记录 中 。 由 
于 物品 4 并 没有 达到 最 小 支持 度 ， 所 以 没有 包含 在 41 中 。 通 过 去 掉 这 件 物品 ， 减 少 了 查找 两 物品 
项 集 的 工作 量 。 


11.3.2 ”组 织 完整 的 Apriori 算法 
整个 Aprior 千 法 的 伪 代 码 如 下 : 
当 集 合 中 项 的 个 数 大 于 0 时 
构建 一 个 [个 项 组 成 的 候选 项 集 的 列表 


检查 数据 以 确认 每 个 项 集 都 是 频繁 的 
保留 频繁 项 集 并 构建 寻 1 项 组 成 的 候选 项 集 的 列表 


既然 可 以 过 滤 集 合 ， 那么 就 能 够 构建 完整 的 Apriori 算 法 了 。 打 开 apriori.py 文 件 加 入 如 下 程序 
清单 中 的 代码 。 


程序 清单 11-2 ”Apriori 算 法 
def aprioriGen (Lk, k): #creates Ck 
retList = {] 
lenbLk = len (Lk) 
for i in range (lenLk): 
for 了 in range (i+1, lenbk): 
D1 = list (Lk[i]){:k-2]; L2 = list (Lk{j])[:k-2) “前 k-2 个 项 相同 时 ， 
L1.sort(); L2.sort() 将 两 个 集合 合 
if Li==L2: 
retList.append (Lk (i] | Lk({j}) 
return retList 


def apriori (dataSet, minSupport = 0.5) ; 
C1 = createCcl (dataSet) 
D = map(set, dataSet) 
L1, supportbata ~ scanD(D, C1i, minSupport) 


LDL = fb1] 

K = 2 

while (len(D[IKk-21) > 0): 
Ck = aprioriGen(LIk-2] ，k) = 扫描 数据 集 ， 从 Ck 得 到 Lk 
Lk, SupK = scanD(D, Ck, minSupport) 


supportData .update (supK) 
L.append (Lk) 
k += 1 

return L, SupportData 


程序 清单 11-2 包 含 两 个 函数 aprioriGen() 与 apriori ()。 其 中 主 函数 是 apriori (), 它 会 
调用 aprioriGen () 来 创建 候选 项 集 ck。 

函数 aprioriGen() 的 输入 参数 为 频繁 项 集 列表 Lk 与 项 集 元 素 个 数 k, 输出 为 ck。 举例 来 说 ， 
该 函数 以 {0}、{1}、{2} 作 为 输入 , 会 生成 {0,1}、{0,2} 以 及 {1,2}。 要 完成 这 一 点 ， 首先 创建 一 个 
空 列表 ， 然 后 计算 ck 中 的 元 素数 目 。 接 下 来 ， 比 较 Lk 中 的 每 一 个 元 素 与 其 他 元 素 ， 这 可 以 通过 
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两 个 for 循 环 来 实现 。 紧 接着 ， 取 列表 中 的 两 个 集合 进行 比较 。 如 果 这 两 个 集合 的 前 面 k-2 个 元 
素 都 相等 ， 那 么 就 将 这 两 个 集合 合成 一 个 大 小 为 k 的 集合 人 @。 这 里 使 用 集合 的 并 操作 来 完成 ， 在 
Python 中 对 应 操作 符 | 。 

上 面 的 x-2 有 点 让 人 疑惑 。 接 下 来 再 进一步 讨论 细节 。 当 利用 {0}、{1}、{2} 构 建 {0,1}、{0,2}、 
{2} 时 ， 这 实际 上 是 将 单个 项 组 合 到 一 块 。 现 在 如 果 想 利用 {0,1}、 {0,2}、 也 ,2} 来 创建 三 元 素 
项 集 ， 应 该 怎么 做 ? 如 果 将 每 两 个 集合 合并 ， 就 会 得 到 {0, 1,2}、 {0, 1,2}、 {0, 1 2}。 也 就 是 说 ， 
同样 的 结果 集合 会 重复 3 次 。 接 下 来 需要 扫描 三 元 素 项 集 列表 来 得 到 非 重复 结果 ， 我 们 要 做 的 是 
确保 遍历 列表 的 次 数 最 少 。 现在 ,如 果 比 较 集合 {0,1} 、{0.2}、{12} 的 第 1 个 元 素 并 只 对 第 1 个 元 
素 相 同 的 集合 求 并 操作 ， 又 会 得 到 什么 结果 ? {0, 1, 2} ， 而 且 只 有 一 次 操作 ! 这 样 就 不 需要 遍历 
列表 来 寻找 非 重复 值 。 

上 面 所 有 的 操作 都 被 封装 在 apriori () 函数 中 。 给 该 函数 传递 一 个 数据 集 以 及 一 个 支持 度 ， 
函数 会 生成 候选 项 集 的 列表 ， 这 通过 首先 创建 c1 然 后 读 人 数据 集 将 其 转化 为 D ( 集合 列表 ) 来 完 
成 。 程 序 中 使 用 map 函 数 将 set () 映射 到 dataset 列 表 中 的 每 一 项 。 接 下 来 ,使 用 程序 清单 11-1 
中 的 scanD () 水 数 来 创建 1， 并 将 L1 放 人 列表 iL 中 。L 会 包含 L1、L2、L3...。 现 在 有 了 L1， 后 面 
会 继续 找 L2,L3...， 这 可 以 通过 while 循 环 来 完成 ， 它 创 建 包含 更 大 项 集 的 更 大 列表 ， 直 到 下 一 
个 大 的 项 集 为 空 。 如 果 这 听 起 来 让 人 有 点 困惑 的 话 ,那么 等 一 下 你 会 看 到 它 的 工作 流程 。 首 先 使 
用 aprioriGen() 来 创建 ck， 然 后 使 用 scanp () 基 于 ck 来 创建 Lk。ck 是 一 个 候选 项 集 列表 ， 然 
后 scanD() 会 遍历 ck， 丢 掉 不 满足 最 小 支持 度 要 求 的 项 集 @。Lk 列 表 被 添加 到 LL， 同 时 增加 xk 的 
值 ， 重复 上 述 过 程 。 最 后 ， 当 Lk 为 空 时 ， 程序 返回 iL 并 退出 。 

下 面 看 看 二 述 程序 的 执行 效果 。 保 存 apriotri.py 文 件 后 ， 输 入 如 下 命令 : 


>>> reload (apriori) 
<module ‘'apriori' from 'apriori.pyc'> 


上 面 的 命令 创建 了 6 个 不 重复 的 两 元 素 集合 ， 下 面 看 一 下 Apriori 算 法 : 


>>> LSsSuppData=apriori.apriori (daataSet) 


和 和 下 
[[frozenset ([1}), frozenset{{3]), frozenset ( [2] )，frozenset ([5] )]， 
[frozenset ({1，3])，frozenset ([2，5])，frozenset ([2，3])，frozenset ([3，5])]， 
[frozenset ([2, 3, 5])}], {1] 

L 包 含 满足 最 小 支持 度 为 0.5 的 频繁 项 集 列 表 ， 下 面 看 一 下 具体 值 
>>> LI[0] 
[frozenset ( [1] ) frozenset([3]), frozenset ([2}), frozenset([5])] 
>>> LI[1] 
[frozenset ([1, 3]), frozenset ([2, 5]), frozenset ([2, 3]), 
frozenset {[3, 5])] 
>>> LI{2] 
[frozenset ([2, 3, 5})] 
>>> LI[3] 


[] 
每 个 项 集 都 是 在 函数 apriori () 中 调用 画 数 aprioriGen() 来 生成 的 。 下 面 看 一 下 apriori Gen1() 
函数 的 工作 流程 : 
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>>> apriori.,aprioriGen (L[0], 2) 
[frozenset ([1, 3]), frozenset ([1, 2]), frozenset([1, 5]), 
frozenset ([2, 3]), frozenset ([3, 5]), frozenset ([2, 5])] 


这 里 的 6 个 集合 是 候选 项 集 ck 中 的 元 素 。 其 中 4 个 集合 在 LI[1] 中 , 和 镜 下 2 个 集合 被 函数 scanD () 
过 滤 掉 。 
下 面 再 尝试 一 下 70% 的 支持 度 : 


>>> L,suppData=apriori.apriori (dataSet,minSupport=0.7) 
>>> Lb 
[[frozenset ([3]), frozenset ( [2] ) frozenset ([5])], [frozenset ([2, 5])], []] 


变量 supppata 是 一 个 字典 ， 它 包含 我 们 项 集 的 支持 度 值 。 现 在 暂时 不 考虑 这 些 值 ， 不 过 下 
一 节 会 用 到 这 些 值 。 

现在 可 以 知道 哪些 项 出 现在 70% 以 上 的 记录 中 ， 还 可 以 基于 这 些 信息 得 到 一 些 结论 。 我 们 可 
以 像 许多 程序 一 样 利用 数据 得 到 一 些 结论 ， 或 者 可 以 生成 1f-then 形 式 的 关联 规则 来 理解 数据 。 
下 一 节 会 就 此 展开 讨论 。 
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11.2 节 曾经 提 到 ， 可 以 利用 关联 分 析 发 现 许 多 有 趣 的 内 容 。 人 们 最 常 寻找 的 两 个 目标 是 频繁 
项 集 与 关联 规则 。 上 一 节 介 绍 如 何 使 用 Apriori 算 法 来 发 现 频 繁 项 集 , 现在 需要 解决 的 问题 是 如 何 
找 出 关联 规则 。 

要 找到 关联 规则 , 我 们 首先 从 一 个 频繁 项 集 开始 。 我 们 知道 集合 中 的 元 素 是 不 重复 的 , 但 我 
们 想 知 道 基于 这 些 元 素 能 否 获得 其 他 内 容 。 某 个 元 素 或 者 某 个 元 素 集合 可 能 会 推导 出 另 一 个 元 
素 。 从 杂货 店 的 例子 可 以 得 到 ， 如 果 有 一 个 频繁 项 集 {豆奶 , 万 芭 }， 那 么 就 可 能 有 一 条 关联 规 
则 “豆奶 一 万 营 ”"。 这 意味 着 如 果 有 人 购买 了 豆奶 ， 那 么 在 统计 上 他 会 购买 万 芭 的 概率 较 大 。 
但 是 ,这 一 条 反 过 来 并 不 总 是 成 立 。 也 就 是 说 , 即使 “豆奶 黄 营 ”统计 上 显著 , 那么 “万世 一 
豆奶 ”也 不 一 定 成 立 。( 从 逻辑 研究 上 来 讲 ， 箭 头 左边 的 集合 称 作 前 件 ， 箭 头 右边 的 集合 称 为 
后 件 。) 

11.3 节 给 出 了 频繁 项 集 的 量化 定义 ， 即 它 满足 最 小 支持 度 要 求 。 对 于 关联 规则 ， 我 们 也 有 类 
似 的 量化 方法 ， 这 种 量化 指标 称 为 可 信和 度 。 一 条 规则 P 一 再 的 可 信和 度 定 义 为 support(P | 
H) /support (P) 。 记 住 ， 在 Python 中 ， 操作 符 | 表 示 集 合 的 并 操作 ， 而 数学 上 集合 并 的 符号 是 U 。 
P | H 是 指 所 有 出 现在 集合 Pp 或 者 集合 H 中 的 元 素 。 前 面 一 节 已 经 计算 了 所 有 频繁 项 集 支持 度 。 现 
在 想 获得 可 信和 度 ， 所 需要 做 的 只 是 取出 那些 支持 度 值 做 一 次 除法 运算 。 

从 一 个 频繁 项 集中 可 以 产生 多 少 条 关联 规则 ?图 11-4 的 网 格 图 给 出 的 是 从 项 集 {0,1,2,3} 产 生 
的 所 有 关联 规则 。 为 找到 感 兴趣 的 规则 , 我 们 先生 成 一 个 可 能 的 规则 列表 , 然后 测试 每 条 规则 的 
可 信和 度 。 如 果 可 信和 度 不 满足 最 小 要 求 ， 则 去 掉 该 规则 。 
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图 11-4 “对 于 频繁 项 集 {0,12,3} 的 关联 规则 网 格 示 意图 。 阴 影 区 域 给 出 的 是 低 可 信 度 的 规则 。 如 
果 发 现 0,12 一 3 是 一 条 低 可 信 度 规则 ， 那 么 所 有 其 他 以 3 作为 后 件 的 规则 可 信和 度 也 会 较 低 


类 似 于 上 一 节 的 频繁 项 集 生成 , 我 们 可 以 为 每 个 频繁 项 集 产 生 许多 关联 规则 。 如 果 能 够 减少 
规则 数目 来 确保 问题 的 可 解 性 ,那么 计算 起 来 就 会 好 很 多 。 可 以 观察 到 ， 如 果 某 条 规则 并 不 满足 
最 小 可 信和 度 要 求 ， 那么 该 规则 的 所 有 子 集 也 不 会 满足 最 小 可 信和 度 要 求 。 以 图 11-4 为 例 ， 假 设 规则 
0,1,2 一 3 并 不 满足 最 小 可 信和 度 要 求 , 那么 就 知道 任何 左 部 为 {0,1,2} 子 集 的 规则 也 不 会 满足 最 小 可 


信 度 要 求 。 在 图 11-4 中 这 些 规则 上 都 加 了 阴影 来 表示 。 


可 以 利用 关联 规则 的 上 述 性 质 属性 来 减少 需要 测试 的 规则 数目 。 类 似 于 程序 清单 11-2 中 的 
Apriori 算 法 ， 可 以 首先 从 一 个 频繁 项 集 开 始 ， 接 着 创建 一 个 规则 列表 ， 其 中 规则 右 部 只 包含 一 个 
元 素 , 然后 对 这 些 规则 进行 测试 。 接 下 来 合并 所 有 剩余 规则 来 创建 一 个 新 的 规则 列表 ,其 中 规则 
右 部 包含 两 个 元 素 。 这 种 方法 也 被 称 作 分 级 法 。 下 面 看 一 下 这 种 方法 的 实际 效果 ,打开 aprioripy 


文件 ， 加 入 下 面 的 代码 。 
程序 清单 11-3 ”关联 规则 生成 函数 


def generateRules (L, supportData, minConf=0.7): 
bigRuleList = [] 了 只 获取 有 两 个 或 更 多 元 素 的 集合 
for i in range(1, len(L)): 
for freqSet in L[il: 
H1 = [frozenset ( [item]) for item in freqSet] 
LE (i SSL) 
rulesFromConseq (freqSet, H1, supportData, bigRuleLisgst,\ 
minConf) 
else: 
calcConf (freqSet, H1i, supportData, bigRuleList, minConf) 
return bigRuleList 


def calcConf (freqSet, H, supportData, brl, minConf=0.7): 
prunedH = {] 
for conseq in H: 
conf = supportData [freqSet]/supportData [freqSet-conseg] 
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if conf >= minConf: 
Print freqSset-conseq,'-->',conseq,'conf:',conf 
brl.append( (freqSet -conseq, conseq, conf)) 
prunedH .append (conseq) 
return prunedH 


def rulesFromConseq(freqSet, H, supportData, brl, minConf=0.7): 
m = len(H[0]) .9 尝试 进一步 合并 
if (len(freqSet) > (m + 1)): 
Hmp1 = aprioriGen(H, m + 1) 
Hmpl = calcConf (freqSet, Hmpl, supportData, brl, minConf) 
if (len(Hmp1) > 1): 
rulesFromConseq (freqSet, Hmpl, supportData, brl, minConf) 


创建 Hm+1 条 新 候选 规则 


上 述 程 序 中 包含 三 个 消 数 。 第 一 个 函数 generateRules () 是 主 函 数 ， 它 调 用 其 他 两 个 函数 。 
其 他 两 个 函数 是 xulesFromconseq() 和 calcconf() ， 分 别 用 于 生成 候选 规则 集合 以 及 对 规则 
进行 评估 。 

函数 generateRules () 有 3 个 参数 ; 频繁 项 集 列 表 、 包 含 那些 频繁 项 集 支 持 数据 的 字典 、 最 
小 可 信 度 立 值 。 函数 最 后 要 生成 一 个 包含 可 信和 度 的 规则 列表 , 后面 可 以 基于 可 信和 度 对 它们 进行 排 
序 。 这 些 规则 存放 在 bigRuleList 中 。 如 果 事 先 没有 给 定 最 小 可 信和 度 的 阐 值 ， 那 么 默认 值 设 为 
0.7。generateRules () 的 另 两 个 输入 参数 正好 是 程序 清单 11-2 中 函数 apriori () 的 输出 结果 。 
该 函数 遍历 i 中 的 每 一 个 频繁 项 集 并 对 每 个 频繁 项 集 创建 只 包含 单个 元 素 集合 的 列表 H1。 因 为 无 
法 从 单元 素 项 集中 构建 关联 规则 ， 所 以 要 从 包含 两 个 或 者 更 多 元 素 的 项 集 开始 规则 构建 过 程 人 @。 
如 果 从 集合 {0,1,2} 开 始 , 那么 H1 应 该 是 [{0},{1},{2}]。 如 果 频 繁 项 集 的 元 素数 目 超过 2, 那么 会 考 
虑 对 它 做 进一步 的 合并 。 具体 合并 可 以 通过 函数 rulesFromconseG() 来 完成 ， 后 面 会 详细 讨论 
合并 过 程 。 如 果 项 集中 只 有 两 个 元 素 ， 那 么 使 用 函数 calcconf () 来 计算 可 信 度 值 。 

我 们 的 目标 是 计算 规则 的 可 信和 度 以 及 找到 满足 最 小 可 信和 度 要 求 的 规则 。 所 有 这 些 可 以 使 用 函 
数 calcconf () 来 完成 ， 而 程序 清单 11-3 中 的 其 余 代码 都 用 来 准备 规则 。 函 数 会 返回 一 个 满足 最 
小 可 信 度 要 求 的 规则 列表 ,为 了 保存 这 些 规则 ， 需 要 创建 一 个 空 列表 prunedH。 接 下 来 ， 遍 历 H 
中 的 所 有 项 集 并 计算 它们 的 可 信和 度 值 。 可 信和 度 计算 时 使 用 supportData 中 的 支持 度数 据 。 通 过 
导入 这 些 支 持 度数 据 ， 可 以 节省 大 量 计算 时 间 。 如 果 某 条 规则 满足 最 小 可 信和 度 值 , 那么 将 这 些 规 
则 输出 到 屏幕 显示 。 通 过 检查 的 规则 也 会 被 返回 , 并 被 用 在 下 一 个 函数 *ulesFromconseq() 中 。 
同时 也 需要 对 列表 br1 进 行 填充 ， 而 br1 是 前 面 通过 检查 的 pigRuleList。 

为 从 最 初 的 项 集中 生成 更 多 的 关联 规则 ， 可 以 使 用 rulesFromconseq() 函数 。 该 函数 有 2 
个 参数 : 一 个 是 频繁 项 集 , 另 一 个 是 可 以 出 现在 规则 右 部 的 元 素 列表 H。 函 数 先 计算 a 中 的 频繁 集 
大 小 m@。 接 下 来 查看 该 频繁 项 集 是 否 大 到 可 以 移 除 大 小 为 m 的 子 集 。 如 果 可 以 的 话 ， 则 将 其 移 
除 。 可 以 使 用 程序 清单 11-2 中 的 函数 aprioriGen () 来 生成 H 中 元 素 的 无 重复 组 合 合 。 该 结果 会 
存储 在 Hmp1l 中 ， 这 也 是 下 一 次 迭代 的 HEH 列表。Hmp1 包 含 所 有 可 能 的 规则 。 可 以 利用 calcconf () 
来 测试 它们 的 可 信和 度 以 确定 规则 是 否 满足 要 求 。 如 果 不 止 一 条 规则 满足 要 求 ， 那 么 使 用 Hmp1 巡 
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代 调 用 函数 rulesFromConseq () 来 判断 是 否 可 以 进一步 组 合 这 些 规 则 。 
下 面 看 一 下 实际 的 运行 效果 ， 保 存 apriori .py 文件 ， 在 Python 提示 符 下 输入 ; 
>>> reload (apriori) 
<module 'apriori'!' from 'apriori.py'> 
Now let’s generate a set of frequent itemsets with a support of 0.5: 
>>> L,SsuppData=apriori.,.apriori (dataSet,minSsupport=0.5) 
>>> rules=apriori.generateRules(L, suppData, minConf=0.7) 
>>> rules 


[(frozenset ([1]), frozenset ([21), 


frozenset ([3]), 1.0), (frozenset([5]), 


1.0), (frozenset ([2]), frozenset ({5]), 1.0})] 
frozenset ([1]) --> frozenset{[3]) conf: 1.0 
frozenset ( [5]) --> frozenset([2]) conf: 1.0 
frozenset ( [2]) --> frozenset{[5]) conf: 1.0 


结果 中 给 出 三 条 规则 ;和 一 {3}、{5} 一 人 2} 及 人 2} 一 {5)。 可 以 看 到 ， 后 两 条 包含 2 和 5 的 规则 
可 以 互 换 前 件 和 后 件 ， 但 是 前 一 条 包含 1 和 3 的 规则 不 行 。 下 面 降低 可 信 度 阐 值 之 后 看 一 下 结果 


>>> rules=apriori.generateRules (L, suppData, minConf=0.5) 
>>> rules 

[ (fxzozenset ( [3] ) frozenset ([1]), 
frozenset ([3]), 1.0), (frozenset([5]1), 
(frozenset ([2]), frozenset([5]), 1.0), {frozenset([3]), frozenset([2]), 
0.6666666666666666), (frozenset ({2] ) frozenset(([3]), 0.6666666666666666), 
(frozenset ({5]), frozenset([3]), 0.6666666666666666), (frozenset ( [3]), 
frozenset {[5]), 0.6666666666666666), {frozenset({[5]), frozenset ([2, 3]), 
0.6666666666666666), (frozenset ([3])，frozenset ([2，5])， 


0.6666666666666666)， (frozenset ( [1] ) ， 


frozenset ([2])，1.0)， 


0.6666666666666666)， (frozenset ([2]), frozenset([3, 5]), 
0.6666666666666666) ] 

frozenset ({[3]) --> frozenset ([1]) conf: 0.666666666667 
frozenset ([1]) --> frozenset ([3]) conf: 1.0 

frozenset ([51}) --> frozenset ({2]) conf: 1.0 
frozenset ( [2]) --> frozenset([5]) conf: 1.0 

frozenset ({3]) --> frozenset({2]) conf: 0.666666666667 
frozenset ([2]) --> frozenset ([3]) conf: 0.666666666667 
frozenset ([5]) --> frozenset ({3}) conf: 0.666666666667 


frozenset ([3]) 


frozenset( [51) 


conf: 


0.666666666867 











frozenset (15]) --> frozenset([2, 3]) conf: 0.666666666667 
frozenset ([3]) --> frozenset ({[2, 5]) conf: 0.666666666667 
frozenset ( [2]) --> frozenset ([3, 5]) conf: 0.666666666667 


一 旦 降低 可 信 度 冰 值 ， 就 可 以 获得 更 多 的 规则 。 到 现在 为 止 ， 我 们 看 到 上 述 程序 能 够 在 一 个 
小 数据 集 上 正常 运行 , 接 下 来 将 在 一 个 更 大 的 真实 数据 集 上 测试 一 下 效果 。 具 体 地 , 下 一 节 将 检 
查 其 在 美国 国会 投票 记录 上 的 处 理 效 果 。 


11.5 示例 ， 发 现 国会 投票 中 的 模式 


前 面 我 们 已 经 发 现 频繁 项 集 及 关联 规则 , 现在 是 时 候 把 这 些 工具 用 在 真实 数据 上 了 。 那么 可 
以 使 用 什么 样 的 数据 呢 ? 购物 是 一 个 很 好 的 例子 , 但 是 前 面 已 经 用 过 了 。 另 一 个 例子 是 搜索 引擎 
中 的 查询 词 。 这 个 示例 听 上 去 不 错 ， 不 过 下 面 看 到 的 是 一 个 更 有 趣 的 美国 国会 议员 投票 的 例子 。 
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加 州 大 学 埃 文 分 校 的 机 器 学 习 数据 集合 中 有 一 个 自 1984 年 起 的 国会 投票 记录 的 数据 集 ， 
http://archive.ics.uci.edu/ml/datasets/CongressionaltVotingtRecords。 这 个 数据 集 有 点 偏 旧 ， 而 且 其 
中 的 议题 对 我 来 讲 意义 也 不 大 。 我 们 想 尝试 一 些 更 新 的 数据 。 目 前 有 不 少 组 织 致力 于 将 政府 数据 
公开 化 ， 其 中 的 一 个 组 织 是 智能 投票 工程 ( Project Vote Smart， 网 址 : http://www.votesmart.org )， 
它 提供 了 一 个 公共 的 API。 下 面 会 看 到 如 何 从 Votesmart.org 获 取 数 据 ， 并 将 其 转化 为 用 于 生成 频 
繁 项 集 与 关联 规则 的 格式 。 该 数据 可 以 用 于 竞选 的 目的 或 者 预测 政治 家 如 何 投 票 。 


(1) 收集 数据 ; wo 

(2) 准备 数据 : 构造 一 个 函数 来 将 投票 转化 为 一 串 交 易 记 录 。 

(3) 分 析 数 据 : 在 Python 提示 符 下 查看 准备 的 数据 以 确保 其 正确 性 。 

(4) 训练 算法 ; 使 用 本 章 早先 的 apriori () 和 generateRules () 函数 来 发 现 投票 记录 中 
的 有 趣 信 息 。 

(5) 测试 算法 : 不 适用 ， 即 没有 测试 过 程 。 : 

(6) 使 用 算法 : 这 里 只 是 出 于 娱乐 的 目的 ， 不 过 也 可 以 使 用 分 析 结 全 
务 ， 或 者 预测 选举 官员 会 如 何 投票 。 











接 下 来 ,我 们 将 处 理 投票 记录 并 创建 一 个 交易 数据 库 。 这 需要 一 些 创造 性 思维 。 最 后 ， 我 们 
会 使 用 本 章 早先 的 代码 来 生成 频繁 项 集 和 关联 规则 的 列表 。 


11.5.1 ”收集 数据 ， 构 建 美国 国会 投票 记录 的 事务 数据 集 


智能 投票 工程 已 经 收集 了 大 量 的 政府 数据 ， 他 们 同时 提供 了 一 个 公开 的 API 来 访问 该 数据 
http://api.votesmart.org/docs/terms.html。 Sunlight 实验 室 写 过 一 个 Python 模块 用 于 访问 该 数据 ， 该 
模块 在 https://github.com/sunlightlabs/python-votesmart 中 有 很 多 可 供 参 考 的 文档 。 下 面 要 从 美国 国 
会 获得 一 些 最 新 的 投票 记录 并 基于 这 些 数据 来 尝试 学 习 一 些 关联 规则 。 

我 们 希望 最 终 数 据 的 格式 与 图 11-1 中 的 数据 相同 ， 即 每 一 行 代表 美国 国会 的 一 个 成 员 ， 而 每 列 
都 是 他 们 投票 的 对 象 。 接 下 来 从 国会 议员 最 近 投 票 的 内 容 开 始 。 如 果 没 有 安装 python-votesmart， 
或 者 没有 获得 API key 9 那么 需要 先 完成 这 两 件 事 。 关于 如 何 安装 python-votesmart 可 以 参考 
附录 A 。 

要 使 用 votesmartAPI， 需 要 导 人 votesmart 模 块 ， 

from votesmart import votesmart 


接 下 来 ， 输 入 你 的 API key?: 


>>> Votesmart .apikey = '49024thereoncewasamanfromnantucket94040'! 








Q@ 这 里 的 key 只 是 一 个 例子 。 你 需要 在 http: //votesmart. org/share/api/register 申 请 自己 的 key。 


2 


wwaibbt.com DUODDOODOD 








214 第 11 章 使 用 Apriori 算 法 进行 关联 分 析 








现在 就 可 以 使 用 votesmartAPI 了 。 为 了 获得 最 近 的 100 条 议案 ， 输 入 : 
>>> bills = votesmart .votes .getBil1sByStateRecent () 


为 了 看 看 每 条 议案 的 具体 内 容 ， 输 入 ; 


>>> for bill in bills: 
print bill.title,bill.billId 


Amending FAA Rulemaking Activities 13020 

Prohibiting Federal Funding of National Public Radio 12939 
Additional Continuing Appropriations 12888 

Removing Troops from Afghanistan 12940 


"Whistlebliower Protection' for Offshore Oil Workers 11820 


读者 在 看 本 书 时 , 最 新 的 100 条 议案 内 容 将 会 有 所 改变 。 所 以 这 里 我 将 上 述 100 条 议案 的 标题 
及 ID 号 (billld ) 保存 为 recent100bills.txt 文 件 。 

可 以 通过 getBil1() 方 法 ， 获 得 每 条 议案 的 更 多 内 容 。 比 如 ， 对 刚才 的 最 后 一 条 议案 
“Whistleblower Protection”， 其 ID 号 为 11820。 下 面 看 看 实际 结果 ， 

>>> bill = votesmart .votes ,getBil1(11820) 

上 述 命令 会 返回 一 个 BillDetail 对 象 ， 其 中 包含 大 量 完整 信息 。 我 们 可 以 查看 所 有 信息 ， 
不 过 这 里 我 们 所 感 兴趣 的 只 是 围绕 议案 的 所 有 行为 。 可 以 通过 输入 下 列 命令 来 查看 实际 结果 ， 

>>> bill.actions 

上 述 命令 会 返回 许多 行为 ,议案 包括 议案 被 提出 时 的 行为 以 及 议案 在 投票 时 的 行为 。 我 们 对 
投票 发 生 时 的 行为 感 兴趣 ， 可 以 输入 下 面 命令 来 获得 这 些 信 息 : 


>>> for action in bill.actions: 
if action.stage=='Passage': 
print action.actionId 

31670 

上 述 信 息 并 不 完整 ,一 条 议案 会 经 历 多 个 阶段 。 一 项 议案 被 提出 之 后 , 经 由 美国 国会 和 众 议 
院 投票 通过 后 , 才能 进入 行政 办 公 室 。 其 中 的 Passage ( 议案 通过 ) 阶段 可 能 存在 欺骗 性 ， 因 为 这 
有 可 能 是 行政 办 公 室 的 Passage 阶 段 ， 那 里 并 没有 任何 投票 。 

为 获得 某 条 特定 议案 的 投票 信息 ， 使 用 getBillActionVotes () 方 法 : 


>>> voteList = votesmart.votes.getBillActionVotes (31670) 


其 中 ，voteList 是 一 个 包含 Vote 对 象 的 列表 。 输 入 下 面 的 命令 来 看 一 下 里 面包 含 的 内 容 : 


>>> voteList [22] 

Vote({u'action': u'No Vote', u'candidateId': u'430', u'officeparties': 
u'Democratic!', u'candidateName': u'Berry, Robert'}) 

>>> voteList [21] 

Vote({u'action': u'Yea!', Uu'candidateId!: u'26756', u'officeParties'!:: 
u'Democratic!', u'candidateName': u'Berman, Howard!)}) 
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现在 为 止 ， 我 们 已 经 用 过 这 些 相 关 API， 可 以 将 它们 组 织 到 一 块 了 。 接 下 来 会 给 出 一 个 函数 
将 文本 文件 中 的 pillra 转 化 为 actionrd。 如 前 所 述 ， 并非 所 有 的 议案 都 被 投票 过 ， 另 外 可 能 有 
一 些 议案 在 多 处 进行 了 议案 投票 。 也 就 是 说 需要 对 actionId 进 行 过 滤 只 保留 包含 投票 数据 的 
actionId。 这 样 处 理 之 后 将 100 个 议案 过 滤 到 只 剩 20 个 议案 , 这 些 剩 下 的 议案 都 是 我 认为 有 趣 的 
议案 ， 它 们 被 保存 在 文件 recent20bills.txt 中 。 下 面 给 出 一 个 getActionIds() 函数 来 处 理 
actionIds 的 过 滤 。 打 开 aprioripy 文 件 ， 输 入 下 面 的 代码 %。 


程序 清单 11-4 ”收集 美国 国会 议案 中 action ID 的 函数 
from time import sleep 
from votesmart import votesmart 
votesmart .apikey = '49024thereoncewasamanfromnantucket94040' 
def getActionIds(): 


actionIdList = []; billTitleList = [] 
fr = open('recent20bills,txt') 
for line in fr.readlines (): 
billNum = int (line.split('\t') [0]) 
try: 
billDetail = votesmart .votes.getBill (billNum) 
for action in billDetail.actions: 


if action.level == ,House' and \ 其 过 滤 出 包含 投票 的 行为 
(action,stage == 'Passage' or \ 
action.stage == 'AmenAdment Vote'): 


actionId = int (action.actionId) 
print :bil1: %d has actionId: %d' % (billNum, actionId) 
actionIdList .append (actionId) 
billTitleList.append (line.strip() .split('\t') [1]) 
except: 
print "problem getting bill %d" % billNum .9 为 礼貌 访问 网 站 而 做 些 延迟 
sleep (1) 
return actionIdList, billTitleList 


上 述 程序 中 导 和 人 了 votesmart 模 块 并 通过 引入 sleep 函 数 来 延迟 API 诗 用 。getaActionsIds () 
函数 会 返回 存储 在 recent20bills.txt 文 件 中 议案 的 actionId。 程 序 先 导 人 API key， 然 后 创建 两 个 
空 列表 。 这 两 个 列表 分 别 用 来 返回 actionsId 和 标题 。 首 先 打开 recent20bills.txt 文 件 ， 对 每 一 行内 不 
同 元 素 使 用 tab 进 行 分 隔 ， 之 后 进入 try-except 模 块 。 由 于 在 使 用 外 部 API 时 可 能 会 遇 到 错误 ， 
并 且 也 不 想 让 错误 占用 数据 获取 的 时 间 ， 上 述 Ery-except 模 块 调用 是 一 种 非常 可 行 的 做 法 。 所 
以 , 首先 尝试 使 用 getBi11 () 方 法 来 获得 一 个 billDetail 对 象 。 接 下 来 遍历 议案 中 的 所 有 行为 ， 
来 寻找 有 投票 数据 的 行为 @。 在 Passage 阶 段 与 Amendment Vote ( 修正 案 投 票 ) 阶段 都 会 有 投票 数 
据 , 要 找 的 就 是 它们 。 现 在 , 在 行政 级 别 上 也 有 一 个 Passage 阶 段 , 但 那个 阶段 并 不 包含 任何 投票 
数据 ， 所 以 要 确保 这 个 阶段 是 发 生 在 众议院 @。 如 果 确实 如 此 ， 程 序 就 会 将 actionra 打 印 出 来 


并 将 它 添加 到 actionIdList 中 。 同 时 ， 也 会 将 议案 的 标题 添加 到 pillTitieList 中 。 如 果 在 


API 调 用 时 发 生 错 误 ， 就 不 会 执行 actiocnIaList 的 添加 操作 。 一 旦 有 错误 就 会 执行 except 模 块 





@ 不 要 忘 了 使 用 你 自己 的 APLkey 来 代替 例子 中 的 key! 
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并 将 错误 信息 输出 。 最 后 , 程序 会 休眠 1 秒 钟 ， 以 避免 对 Votesmart.org 网 站 的 过 度 频 繁 访问 。 程序 
运行 结束 时 ，actionIdList 与 bi11TitleList 会 被 返回 用 于 进一步 的 处 理 。 
下 面 看 一 下 实际 运行 效果 。 将 程序 清单 11-4 中 的 代码 加 入 到 apriori.py 文 件 后 , 输入 如 下 命令 : 


>>> reload {apriori) 

<module 'apriori' from '‘'apriori.py'> 

>>> actionTadList,billTitles = apriori.getActionIds{) 
bill: 12939 has actionTId: 34089 

bill: 12940 has actionTId: 34091 

bill: 12988 has actionTId: 34229 


可 以 看 到 actionId 显 示 了 出 来 ， 它 同时 也 被 添加 到 actionIaList 中 输出 ， 以 后 我 们 可 以 使 
用 这 些 actionTd 了 。 如 果 程 序 运 行 错误 ， 则 尝试 使 用 Ery. .except 代 码 来 捕获 错误 。 我 自己 就 曾 
经 在 获取 所 有 actiondIrd 时 过 到 一 个 错误 。 接 下 里 可 以 继续 来 获取 这 些 actionIra 的 投票 信息 。 

选举 人 可 以 投 是 或 否 的 表决 票 , 也 可 以 弃权 。 需要 一 种 方法 来 将 这 些 上 述 信息 转化 为 类 似 于 
项 集 或 者 交易 数据 库 之 类 的 东西 。 前 面 提 到 过 , 一 条 交易 记录 数据 只 包含 一 个 项 的 出 现 或 不 出 现 
信息 ， 并 不 包含 项 出 现 的 次 数 。 基 于 上 述 投票 数据 ， 可 以 将 投票 是 或 否 看 成 一 个 元 素 。 

美国 有 两 个 主要 政党 ;共和 党 与 民主 党 ,下面 也 会 对 这 些 信息 进行 编码 并 写 到 事务 数据 库 中 。 
幸运 的 是 ,这 些 信息 在 投票 数据 中 已 经 包括 。 下 面 给 出 构建 事务 数据 库 的 流程 : 首先 创建 一 个 字 
典 , 字典 中 使 用 政客 的 名 字 作 为 键 值 。 当 某 政客 首次 出 现时 , 将 他 及 其 所 属 政 党 ( 民主 党 或 者 共 
和 党 ) 添加 到 字典 中 , 这 里 使 用 0 来 代表 民主 党 ,来 代表 共和 党 。 下 面 介绍 如 何 对 投票 进行 编码 。 
对 每 条 议案 创建 两 个 条 目 : bi11+'Yea' 以 及 bil1+'Nay'。 该 方法 人 允许 在 某 个 政客 根本 没有 投 
票 时 也 能 合理 编码 。 图 11-5 给 出 了 从 投票 信息 到 元 素 项 的 转换 结果 。 


m Stop NPR Funding - Nay 

~» Remove Troops Afghanistan - Nay 
a Remove Troops Afghanistan - Yea 
oO Stop Home Loan Modification - Nay 


© Democrat 
~ Republican 


ltem Number 


图 11-5 美国 国会 信息 到 元 素 (项 ) 编号 之 间 的 鼎 射 示意 图 


现在 ,我 们 已 经 有 一 个 可 以 将 投票 编码 为 元 素 项 的 系统 ， 接 下 来 是 时 候 生 成 事务 数据 库 了 。 
一 旦 有 了 事务 数据 库 ， 就 可 以 应 用 早先 写 的 Apriori 代 码 。 下 面 将 构建 一 个 使 用 actionTd 串 作为 
输入 并 利用 votesmaxrt 的 API 来 抓 取 投票 记录 的 函数 。 然 后 将 每 个 选举 人 的 投票 转化 为 一 个 项 
集 。 每 个 选举 人 对 应 于 一 行 或 者 说 事务 数据 库 中 的 一 条 记录 。 下 面 看 一 下 实际 的 效果 ， 打 开 
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apriori.py 文 件 并 添加 下 面 清单 中 的 代码 。 
程序 清单 11-5 ”基于 投票 数据 的 事务 列表 填充 函数 


def getTransList (actionidList, billTitleList): 


itemMeaning = ['Republican', ‘Democratic’'] 
for billTitle in billTitleList: 1 
em n 1 
itemMeaning.append('%s -- Nay' % billTitle) 2 填充 iemMeaning 列 表 
itemMeaning.append('%s -- Yea' $ billTitle) 


transDict = {} 
voteCount = 2 
for actionid in actionIidList: 
sleep (3) 
print 'getting votes for actionId: %d' 四 actionId 
try: 
voteList = votesmart.votes.getBillActionVotes (actionId) 
for vote in voteList: 
if not transDict.has key (vote.candidateName): 
transDict [vote.candidateName] = [] 
if vote.officeparties == 'Democratic': 
transDict {vote.candidateName] .append (1} 
elif vote.officeParties == 'Republican': 
transDict {vote.candidateName] .append (0) 
if vote.action == 'Nay' 
transDict [vote.candidateName] .append (voteCount) 
elif vote,action == 'Yea': 
transDict (vote.candidateName] .append (voteCount + 1) 
except: 
print "Problem getting actionId: %d'" % actionIQ 
voteCount += 2 
return transDict, itemMeaning 


函数 getTransList () 会 创建 一 个 事务 数据 库 , 于 是 在 此 基础 上 可 以 使 用 前 面 的 Apriori 代 码 
来 生成 频繁 项 集 与 关联 规则 。 该 函数 也 会 创建 一 个 标题 列表 , 所 以 很 容易 了 解 每 个 元 素 项 的 含义 。 
一 开始 使 用 前 两 个 元 素 “Repbulican” 和 “Democratic” 创 建 一 个 含义 列表 ;itemMeaning。 当 想 
知道 某 些 元 素 项 的 具体 含义 时 ， 需 要 做 的 是 以 元 素 项 的 编号 作为 索引 访问 itemMeaning 即 可 。 
接 下 来 遍历 所 有 议案 ， 然 后 在 议案 标题 后 添加 Nay (反对 ) 或 者 Yea ( 同意 ) 并 将 它们 放 入 
itemMeaning 列 表 中 合 。 接 下 来 创建 一 个 空 字典 用 于 加 入 元素 项 , 然后 遍历 函数 getActionIds () 
返回 的 每 一 个 actionTa。 遍 历时 要 做 的 第 一 件 事 是 休眠 ， 即 在 for 循 环 中 一 开始 调用 sleep () 
函数 来 延迟 访问 ， 这 样 做 可 以 避免 过 于 频繁 的 API 调 用 。 接 着 将 运行 结果 打印 出 来 ， 以 便 知道 程 
序 是 否 在 正常 工作 。 再 接着 通过 try. . except 块 来 使 用 VotesmartAPI 获 取 某 个 特定 actionId 
相关 的 所 有 投票 信息 。 然 后 ， 遍 历 所 有 的 投票 信息 (通常 voteList 会 超过 400 个 投票 )。 在 遍历 
时 , 使 用 政客 的 名 字 作 为 字典 的 键 值 来 填充 transDict。 如 果 之 前 没有 过 到 该 政客 , 那么 就 要 获 
取 他 的 政党 信息 。 字 典 中 的 每 个 政客 都 有 一 个 列表 来 存储 他 投票 的 元 素 项 或 者 他 的 政党 信息 。 接 
下 来 会 看 到 该 政客 是 否 对 当前 议案 投了 赞成 (Yea ) 或 反对 (Nay ) 票 。 如 果 他 们 之 前 有 投票 ， 
那么 不 管 是 投 赞成 票 还 是 反对 票 , 这 些 信 息 都 将 添加 到 列表 中 。 如 果 API 调 用 中 发 生 了 什么 错误 ， 
except 模 块 中 的 程序 就 会 被 调用 并 将 错误 信息 输出 到 屏幕 上 ， 之 后 函数 仍然 继续 执行 。 最 后 ， 
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程序 返回 事务 字典 transDict 及 元 素 项 含义 类 表 itemMeaning。 
下 面 看 一 下 投票 信息 的 前 两 项 ， 了 解 上 述 代 码 是 否 正 常 工作 : 


>>> reload (apriori) 

<module '‘'apriori' from 'apriori.py'> 

>>>transDict,itemMeaning=apriori.getTransList (actionIdList[:2], 
billTitles[:2]) 

getting votes for actionId: 34089 

getting votes for actionId: 34091 


下 面 看 一 下 transDict 中 包含 的 具体 内 容 ; 
>>> for key in transDict.keys() : 

a print transDict [key] 

[1, 


2, 5] 
[1, 2, 41 
[0, 3,， 4] 
[0, 3, 4] 
[1, 2, 4] 
[0, 3, 4] 
[1] 
[1, 2,.5] 
[i, 2, 4] 
[1] 
[1, 2, 4] 
[0,3, 4] 
[1, 2, 5] 
[1, 2, 4] 
[0, 3, 4] 


如 果 上 面 许多 列表 看 上 去 都 类 似 的 话 ,读者 也 不 要 太 过 担心 。 许 多 政客 的 投票 结果 都 很 类 似 。 
现在 如 果 给 定 一 个 元 素 项 列表 ， 那 么 可 以 使 用 itemMeaning 列 表 来 快速 “解码 ”出 它 的 含义 ， 
>>> transDict.keys()[6] 
UL Doyle， Michael ;Mike 
>>> for item in transDict[: Doyle, Michael 'Mike'']: 
print itemMeaning {item] 


Republican 
Prohibiting Federal Funding of National Public Radio -- Yea 
Removing Troops from Afghanistan - Nay 


上 述 输出 可 能 因 Votesmart 服 务 器 返回 的 结果 不 同 而 有 所 差异 。 
下 面 看 看 完整 列表 下 的 结果 : 


>>> transDict,itemMeaning=apriori.getTransList (actionIdList, billTitles) 
getting votes for actionId: 34089 
getting votes for actionId: 34091 
getting votes for actionId: 34229 


接 下 来 在 使 用 前 面 开 发 的 Apriori 算 法 之 前 ， 需要 构建 一 个 包含 所 有 事务 项 的 列表 。 可 以 使 用 
类 似 于 前 面 for 循 环 的 一 个 列表 处 理 过 程 来 完成 : 


>>> dataSet = [transDict {key] for key in transDict.keys{()] 





























ww aibbt.com 口 口 0 











11.5 “示例 : 发 现 国会 投票 中 的 模式 219 





上 面 这 样 的 做 法 会 去 掉 键 值 ( 即 政客 ) 的 名 字 。 不 过 这 无 关 紧 要 ， 这 些 信息 不 是 我 们 感 兴趣 
的 内 容 。 我 们 感 兴趣 的 是 元 素 项 以 及 它们 之 间 的 关联 关系 。 接 下 来 将 使 用 Apriori 算 法 来 挖掘 上 面 
例子 中 的 频繁 项 集 与 关联 规则 。 


11.5.2 ”测试 算法 ， 基于 美国 国会 投票 记录 挖掘 关联 规则 


现在 可 以 应 用 11.3 节 的 Apriori 算 法 来 进行 处 理 。 如 果 使 用 默认 的 支持 度 阐 值 50%， 那么 应 该 
不 会 产生 太 多 的 频繁 项 集 . 


>>> L,suppData=apriori.apriori(dataSet, minSupport=0.5) 

>>> 工 

[ [Erozenset ( [4] ) ，frozenset ( [13] ) ，frozengset ([0] ) ，frozenset ([21])]， 
[frozenset ([13，21])]，[]] 


使 用 一 个 更 小 的 支持 度 阐 值 30% 会 得 到 更 多 频繁 项 集 : 


>>> L,suppData=apriori.apriori (dataSet, minSupport=0.3) 
>>> len{L) 


8 
当 使 用 30% 的 支持 度 疮 值 时 ,会 得 到 许多 频繁 项 集 ， 甚 至 可 以 得 到 包含 所 有 7 个 元 素 项 的 6 个 
频繁 集 。 


>>> 工 [6] 

[frozenset ([0, 3, 7, 9, 23, 25, 26]), frozenset([0, 3, 4, 9, 23, 25, 26]), 
frozenset ([0, 3, 4, 7, 9, 23, 26]), frozenset ({0, 3, 4, 7, 9, 23, 25]), 
frozenset ([0, 4, 7, 9, 23, 25, 26]), frozenset([0, 3, 4, 7, 9, 25, 26])] 


获得 频繁 项 集 之 后 就 可 以 结束 ， 也 可 以 尝试 使 用 11.4 节 的 代码 来 生成 关联 规则 。 首 先 将 最 小 
可 信和 度 值 设 为 0.7; | 
>>> rules = apriori.generateRules(L,suppData) 


这 样 会 产生 太 多 规则 ， 于 是 可 以 加 大 最 小 可 信 度 值 。 


>>> rules = apriori.generateRules(L, suppData, minConf=0.95) 
frozenset ([15]) --> frozenset ( [1]) conf: 0.961538461538 
frozenset ([22]) --> frozenset ([1]) conf: 0.951351351351 


frozenset([25, 26, 3, 4]) --> frozenset ([0, 9, 7]) conf; 0.97191011236 
frozenset([0, 25, 26, 4]) --> frozenset ({9, 3, 7]}) conf: 0.950549450549 


继续 增加 可 信 度 值 : 
>>> rules = apriori.generateRules (L, suppData, minConf=0.99) 
frozenset ([3]) --> frozenset ([9]) conf: 1.0 


frozenset ([3]) --> frozenset ([0]) conf: 0.995614035088 
frozenset ([3]) --> frozenset ([0, 9]) conf: 0,995614035088 
frozenset([26, 3]) --> frozenset([0, 9]) conf: 1.0 
frozenset ([9, 26]) --> frozenset([0, 7]) conf: 0.957547169811 
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frozenset ([23, 26, 3, 4, 7]) --> frozenset ([0, 9]) conf: 1.0 
frozenset ([23, 25, 3, 4, 7]) --> frozenset([0，9]j conf: 0.994764397906 
frozenset ({[25, 26, 3, 4, 7]) --> frozenset ({0, 9]) conf: 1.0 


上 面 给 出 了 一 些 有 趣 的 规则 。 如 果 要 找 出 每 一 条 规则 的 含义 , 则 可 以 将 规则 号 作为 索引 输入 
到 itemMeaning 中 : 


. >>> itemMeaning{26] 
!pProhibiting the Use of Federal Funds for NASCAR Sponsorships -- Nay' 
>>> itemMeaning [3] 








Prohibiting Federal Funding of National Public Radio -- Yea' 
>>> itemMeaning{9] 
'Repealing the Health Care Bill -- Yeal 
在 图 11-6 中 列 出 了 下 面 的 几 条 规则 : {3} 一 {0}、{22} 一 {1} 及 {9,26} 一 {0,7}。 
If Then 可 信和 度 ， 
Prohibiling Federal Fund; sb 
National Puole Ro sao ' Republioan 99.6% 
Prohibiting Use of Federat 
Pung or pn = Democrat 95， 1 % 
Parenthood -- Nay 





Prohibiting the Use of Federal 
Funds for NASCAR Republican 
And 


Sponsorships - Nay 95.8% 
| n Teminaling the Home 
Repealing the Health Care Bitl Affordable Modification 
—Yea Program -- Yea 


图 11-6 ”关联 规则 {3} 一 {0}、{22} 一 {1} 与 {9,26} 一 {0,7} 的 含义 及 可 信和 度 


数据 中 还 有 更 多 有 趣 或 娱乐 性 十 足 的 规则 。 还 记得 前 面 最 早 使 用 的 支持 度 30% 吗 ? 这 意味 着 这 
些 规 则 至 少 出 现在 30% 以 上 的 记录 中 。 由 于 至 少 会 在 30% 的 投票 记录 中 看 到 这 些 规 则 ， 所 以 这 是 很 
有 意义 。 对 于 {3} 一 {0} 这 条 规则 ， 在 99.6% 的 情况 下 是 成 立 的 。 我 真希 望 在 这 类 事情 上 贱 一 把 。 


11.6 示例 : 发 现 毒 蘑菇 的 相似 特征 


有 时 我 们 并 不 想 寻 找 所 有 频繁 项 集 ， 而 只 对 包含 某 个 特定 元 素 项 的 项 集 感 兴趣 。 在 本 章 这 个 
最 后 的 例子 中 , 我 们 会 寻找 毒 芯 茵 中 的 一 些 公共 特征 ,利用 这 些 特 征 就 能 避免 吃 到 那些 有 毒 的 蘑 
东 。UCI 的 机 器 学 习 数 据 集合 中 有 一 个 关于 肋 形 茧 菇 的 23 种 特征 的 数据 集 ， 每 一 个 特征 都 包含 一 
个 标 称 数据 值 。 我 们 必须 将 这 些 标 称 值 转化 为 一 个 集合 , 这 一 点 与 前 面 投票 例子 中 的 做 法 类 似 。 幸 
运 的 是 , 已 经 有 人 已 经 做 好 了 这 种 转换 ?。Roberto Bayardo 对 UCI 荐 茹 数据 集 进 行 了 解析 ， 将 每 个 蘑 
菇 样本 转换 成 一 个 特征 集合 。 其 中 ， 梳 举 了 每 个 特征 的 所 有 可 能 值 ， 如 果 某 个 样本 包含 特征 ,那么 
该 特征 对 应 的 整数 值 被 包含 数据 集中 。 下 面 我 们 近 距 离 看 看 该 数据 集 。 它 在 源 数 据 集合 中 是 一 个 名 
为 mushroom.dat 的 文件 。 下 面 将 它 和 原始 数据 集 http://archive.ics.uci.eduw/ml/machine-learning-databases/ 
mushroom/agaricus~lepiota.data 进 行 比较 。 





© “Frequent ltemset Mining Dataset Repository” retrieved July 10, 2011; http:/fimi.ua.ac,be/data/. 
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文件 mushroom.dat 的 前 几 行 如 下 : 


139 13 23 25 34 36 38 40 52 54 59 63 67 76 85 86 90 93 98 107 113 
239 14 23 26 34'36 39 40 52 55 59 63 67 76 85 86 90 93 99 108 114 
249 15 23 27 34 36 39 41 52 55 59 63 67 76 85 86 90 93 99 108 115 


第 一 个 特征 表示 有 毒 或 者 可 食用 。 如 果 某 样本 有 毒 ， 则 值 为 2。 如 果 可 食用 ,， 则 值 为 1。 下 一 
“个 特征 是 蘑菇 外 的 形状 ， 有 六 种 可 能 的 值 ， 分 别 用 整数 3-8 来 表示 。 
为 了 找到 毒 蘑菇 中 存在 的 公共 特征 , 可 以 运行 Apriori 算 法 来 寻找 包含 特征 值 为 2 的 频繁 项 集 。 


>>> mushDatSet = [line.split{) for line in 
open{('mushroom.dat') .readlines ()] 


在 该 数据 集 上 运行 Aprior 算 法 : 
>>> L, suppData=apriori .apriori (mushDatSet，minSupport=0.3) 
在 结果 中 可 以 搜索 包含 有 毒 特征 值 2 的 频繁 项 集 : 


>>> for item in LI[1]: 
if item.intersection('2'): print item 


frozenset(['2:, '59']) 


frozenset (['39', '2']) 
frozenset {['2', '67']) 
frozenset{(['2', '34']) 
frozenset (['2', '23:]) 


也 可 以 对 更 大 的 项 集 来 重复 上 述 过 程 : 
>>> for item in L[3]: | 


if item.intersection('2'): print item 


frozenset (['63', '59', '2', '93']) 
frozenset(['39', '2', '53', '34']) 


frozenset (['2', '59', '23', '85']) 
frozenset (['2', '59', '90', '85']) 
frozenset{(['39', '2', '36', '34']) 
frozenset (['39', '63', '2', '85']) 
frozenset{['39', '2', '90', '85']) 
frozenset (['2', '59', '90', '86']) 





接 下 来 你 需要 观察 一 下 这 些 特 征 ， 以 便 知道 了 解 野 蘑菇 的 那些 方面 。 如 果 看 到 其 中 任何 一 个 
特征 ,那么 这 些 芯 菇 就 不 要 吃 了 。 当 然 ， 最 后 还 要 声明 一 下 : 尽管 上 述 这些 特 征 在 毒 蘑菇 中 很 普 
遍 ， 但 是 没有 这 些 特 征 并 不 意味 该 蘑菇 就 是 可 食用 的 。 如 果 吃 错 了 蘑菇 ， 你 可 能 会 因此 而 丧命 。 


11.7 本章 小 结 
关联 分 析 是 用 于 发 现 大 数据 集中 元 素 间 有 趣 关 系 的 一 个 工具 集 , 可 以 采用 两 种 方式 来 量化 这 








些 有 趣 的 关系 。 第 一 种 方式 是 使 用 频繁 项 集 ， 它 会 给 出 经 常 在 一 起 出 现 的 元 素 项 。 第 二 种 方式 是 | 
关联 规则 ， 每 条 关联 规则 意味 着 元 素 项 之 间 的 “如 果 …… 那 么 ”关系 。 l 


发 现 元 素 项 间 不 同 的 组 合 是 个 十 分 耗 时 的 任务 , 不 可 避免 需要 大 量 昂 贵 的 计算 资源 , 这 就 需 
要 一 些 更 智能 的 方法 在 合理 的 时 间 范 围 内 找到 频繁 项 集 。 能 够 实现 这 一 目标 的 一 个 方法 是 Apriori 
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算法 , 它 使 用 Apriori 原 理 来 减少 在 数据 库 上 进行 检查 的 集合 的 数目 。Apriori 原 理 是 说 如 果 一 个 元 
素 项 是 不 频繁 的 ， 那么 那些 包含 该 元 素 的 超 集 也 是 不 频繁 的 。Aprior 算 法 从 单元 素 项 集 开始 , 通 
过 组 合 满足 最 小 支持 度 要 求 的 项 集 来 形成 更 大 的 集合 。 支 持 度 用 来 度量 一 个 集合 在 原始 数据 中 出 
现 的 频率 。 

关联 分 析 可 以 用 在 许多 不 同 物品 上 。 商店 中 的 商品 以 及 网 站 的 访问 页 面 是 其 中 比较 常见 的 例 . 
子 。 关 联 分 析 也 曾 用 于 查看 选举 人 及 法 官 的 投票 历史 。 

每 次 增加 频繁 项 集 的 大 小 ，Apriori 算 法 都 会 重新 扫描 整个 数据 集 。 当 数据 集 很 大 时 ,这 会 显 
著 降 低频 繁 项 集 发 现 的 速度 。 下 一 章 会 介绍 FPgrowth 算 法 ?， 和 Apriori 算 法 相 比 ， 该 算法 只 需要 
对 数据 库 进 行 两 次 遍历 ， 能 够 显著 加 快 发 现 繁 项 集 的 速度 。 





@ H. Li, Y. Wang, D. Zhang, M. Zhang, and E. Chang, “PFP: Paraliel FP-Growth for Query Recommendation,” RecSys 2008, 
Proceedings of the 2008 ACM Conference on Recommender Systems; http://portal.acm.org/citation.cfm?id=1454027. 
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使 用 FP- growth 算 法 来 高 交 
发 现 频 繁 项 集 


本 章 内 容 

口 发 现 事务 数据 中 的 公共 模式 
口 FP-growth 算 法 

口 发 现 Twitter 源 中 的 共 现 词 


你 用 过 搜索 引擎 吗 ” 输入 一 个 单词 或 者 单词 的 一 部 分 , 搜索 引擎 就 会 自动 补 全 查询 词 项 。 用 
户 甚至 事先 都 不 知道 搜索 引擎 推荐 的 东西 是 否 存在 , 反而 会 去 查找 推荐 词 项 。 我 也 有 过 这 样 的 经 
历 ， 当 我 输入 以 “为 什么 ”开始 的 查询 时 ， 有 了 时 会 出 现 一 些 十 分 滑稽 的 推荐 结果 。 为 了 给 出 这 些 
推荐 查询 词 项 , 搜索 引擎 公司 的 研究 人 员 使 用 了 本 章 将 要 介绍 的 一 个 算法 。 他们 通过 查看 互联 网 
上 的 用 词 来 找 出 经 常 在 一 块 出 现 的 词 对 ?。 这 需要 一 种 高 效 发 现 频繁 集 的 方法 。 

本 章 会 在 上 一 章 讨论 话题 的 基础 上 进行 扩展 , 将 给 出 了 一 个 非常 好 的 频繁 项 集 发 现 算法 。 该 
算法 称 作 FP-growth, 它 比 上 一 章 讨论 的 Aprior 算 法 要 快 。 它 基于 Apriori 构 建 , 但 在 完成 相同 任务 
时 采用 了 一 些 不 同 的 技术 。 这 里 的 任务 是 将 数据 集 存储 在 一 个 特定 的 称 作 FP 树 的 结构 之 后 发 现 频 
繁 项 集 或 者 频繁 项 对 , 即 常 在 一 块 出 现 的 元 素 项 的 集合 FP 树 。 这 种 做 法 使 得 算法 的 执行 速度 要 快 
于 Apriori， 通 常 性 能 要 好 两 个 数量 级 以 上 。 

上 一 章 我 们 讨论 了 从 数据 集中 获取 有 趣 信息 的 方法 , 最 常用 的 两 种 分 别 是 频繁 项 集 与 关联 规 
则 。 第 11 章 中 介绍 了 发 现 频繁 项 集 与 关键 规则 的 算法 ， 本 章 将 继续 关注 发 现 频繁 项 集 这 一 任务 。 
我 们 会 深入 探索 该 任务 的 解决 方法 ， 并 应 用 FB-growth 算 法 进行 处 理 ， 该 算法 能 够 更 有 效 地 挖掘 
数据 。 这 种 算法 虽然 能 更 为 高 效 地 发 现 频繁 项 集 ， 但 不 能 用 于 发 现 关联 规则 。 

FP-growth 算 法 只 需要 对 数据 库 进 行 两 次 扫描 ， 而 Aprior 算 法 对 于 每 个 潜在 的 频繁 项 集 都 会 
扫描 数据 集 判 定 给 定 模式 是 否 频 繁 ， 因 此 FP-growth 算 法 的 速度 要 比 Apriori 算 法 快 。 在 小 规模 数 
据 集 上 ， 这 不 是 什么 问题 ， 但 当 处 理 更 大 数据 集 时 ， 就 会 产生 较 大 问题 。FP-growth 只 会 扫描 数 





OD J. Han, J. Pei, Y. Yin, R. Mao, “Mining Frequent Patterns without Candidate Generation: A Frequent-Pattern Tree 
Approach,” Data Mining and Knowledge Discovery 8 (2004), 53-87、 








WNW ai bbt. com [0 口 0 









































i 











224 第 12 章 使 用 FP-growth 算 法 来 高 效 发 现 频繁 项 集 








据 集 两 次 ， 它 发 现 频繁 项 集 的 基本 过 程 如 下 : 

(1) 构建 FP 树 

(2) 从 FP 树 中 挖掘 频繁 项 集 

下 面 先 讨论 FP 树 的 数据 结构 ， 然 后 看 一 下 如 何 用 该 结构 对 数据 集 编 码 。 最 后 , 我 们 会 介绍 两 
个 例子 : 一 个 是 从 Twitter 文本 流 中 控 据 常用 词 ， 另 一 个 从 网 民 网 页 浏览 行为 中 挖 所 常见 模式 。 


12.1 FP 树 ， 用 于 编码 数据 集 的 有 效 方式 


FP-growth 算 法 
优点 ; 一 般 要 快 于 Apriori。 
缺点 : 实现 比较 困难 ， 在 某 些 数据 集 上 性 能 会 下 降 。 
适用 数据 类 型 : 标 称 型 数据 。 


FP-growth 算 法 将 数据 存储 在 一 种 称 为 FP 树 的 紧凑 数据 结构 中 。FP 代 表 频 繁 模式 〈 Frequent 
Pattern )。 一 棵 FP 树 看 上 去 与 计算 机 科学 中 的 其 他 树 结构 类 似 ， 但 是 它 通过 链接 ( link ) 来 连接 相 
似 元 素 ， 被 连 起 来 的 元 素 项 可 以 看 成 一 个 链表 。 图 12-1 给 出 了 FP 树 的 一 个 例子 。 





图 12-1 一 棵 FP 树 ， 看 上 去 和 一 般 的 树 没什么 两 样 ， 包 含 着 连接 相似 节点 的 链接 


同 搜索 树 不 同 的 是 ， 一 个 元 素 项 可 以 在 一 棵 FP 树 中 出 现 多 次 。FP 树 会 存储 项 集 的 出 现 频率 ， 
而 每 个 项 集会 以 路 径 的 方式 存储 在 树 中 。 存在 相似 元 素 的 集合 会 共享 树 的 一 部 分 。 只 有 当 集合 之 
间 完 全 不 同时 ， 树 才 会 分 又 。 树 节点 上 给 出 集合 中 的 单个 元 素 及 其 在 序列 中 的 出 现 次 数 ， 路 径 
会 给 出 该 序列 的 出 现 次 数 。 上 面 这 一 切 听 起 来 可 能 有 点 让 人 迷糊 ,不 过 不 用 担心 ， 稍 后 就 会 介绍 
FP 树 的 构建 过 程 。 

相似 项 之 间 的 链接 即 节点 链接 (node link )， 用 于 快速 发 现 相似 项 的 位 置 。 为 了 打消 读者 的 
疑惑 ， 下 面 通过 一 个 简单 例子 来 说 明 。 表 12-1 给 出 了 用 于 生成 图 12-1 中 所 示 FP 树 的 数据 。 
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表 12-1 用 于 生成 图 12-1 中 FP 树 的 事务 数据 样 例 





事务 ID 事务 中 的 元 素 项 
001 | r, 2, bh,j,p 
002 Z y, X, W, V, y, t, S 
003 Zz 
004 r, X, Nn, 0, S 
005 y, I, XxX,2,4,1t,p 
006 y, Z, X, €, q, St m 


在 图 12-1 中 ， 元素 项 z 出 现 了 5 次 ， 集 合 {1,z} 出 现 了 1 次 。 于 是 可 以 得 出 结论 ， z 一 定 是 自己 本 
身 或 者 和 其 他 符号 一 起 出 现 了 4 次 。 我 们 再 看 下 z 的 其 他 可 能 性 。 集 合 {ts,y,x,z} 出 现 了 2 次 ， 集 合 
{bny,xs2} 出 现 了 1 次 。 元 素 项 z 的 右边 标的 是 5， 表 示 z 出 现 了 5 次 ， 其 中 刚才 已 经 给 出 了 4 次 出 现 ， 
所 以 它 一 定单 独 出 现 过 1 次 。 通 过 观察 表 12-1 看 看 刚才 的 结论 是 否 正 确 。 前 面 提 到 {bny,x,z} 只 出 
现 过 1 次 ， 在 事务 数据 集中 我 们 看 到 005 号 记录 上 却 是 {yrx,zyq;tp}。 那 么 ，q 和 p 去 哪儿 了 呢 ? 

这 里 使 用 第 11 章 给 出 的 支持 度 定义 ， 该 指标 对 应 一 个 最 小 阔 值 ， 低 于 最 小 阔 值 的 元 素 项 被 认 
为 是 不 频繁 的 。 如 果 将 最 小 支持 度 设 为 3， 然 后 应 用 频繁 项 分 析 算法 ， 就 会 获得 出 现 3 次 或 3 次 以 
上 的 项 集 。 上 面 在 生成 图 12-1 中 的 FP 树 时 ， 使 用 的 最 小 支持 度 为 3， 因 此 q 和 pb 并 没有 出 现在 最 后 
的 树 中 。 

FP-growth 算 法 的 工作 流程 如 下 。 首 先 构建 FP 树 ， 然 后 利用 它 来 挖 捉 频 繁 项 集 。 为 构建 FP 树 ， 
需要 对 原始 数据 集 扫描 两 遍 。 第 一 遍 对 所 有 元 素 项 的 出 现 次 数 进行 计数 。 记 住 第 11 章 中 给 出 的 
Apriori 原 理 ， 即 如 果 某 元 素 是 不 频繁 的 ， 那 么 包含 该 元 素 的 超 集 也 是 不 频繁 的 ， 所 以 就 不 需要 考 
虑 这 些 超 集 。 数 据 库 的 第 一 遍 扫 描 用 来 统计 出 现 的 频率 ， 而 第 二 遍 扫描 中 只 考虑 那些 频繁 元 素 。 





(1) 收集 数据 : 使 用 任意 方法 。 

(2) 准备 数据 : 由 于 存储 的 是 集合 ， 所 以 需要 离散 数据 。 如 果 要 处 理 连续 数据 ， 需 要 将 它们 
量化 为 离散 值 。 ， 

(3) 分 析 数 据 : 使 用 任意 方法 。 

(4) 训练 算法 : 构建 一 个 FP 树 ， 并 对 树 进 行 控 据 。 





(5) 测试 算法 : 没有 测试 过 程 。 
(6) 使 用 算法 ; 可 用 于 识别 经 常 出 现 的 元 素 项 ， 从 而 用 于 制定 决策 、 推 荐 元 素 或 进行 预测 | 
等 应 用 中 0 | 

| 


12.2 构建 FP 树 
在 第 二 次 扫描 数据 集 时 会 构建 一 棵 FP 树 。 为 构建 一 材 树 ， 需 要 一 个 容器 来 保存 树 。 
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12.2.1 创建 FP 树 的 数据 结构 


本 章 的 FP 树 要 比 书 中 其 他 树 更 加 复杂 , 因此 要 创建 一 个 类 来 保存 树 的 每 一 个 节点 。 创 建文 件 
印 Growth.py 并 加 入 下 列 程序 中 的 代码 。 


程序 清单 12-1 FP 树 的 类 定义 


class treeNode: 
def _ init (self, nameVvalue, numOccur, parentNode): 
self.name = nameValue 
self.count = numOccur 
self .nodeLink = None 
Self .Parent = parentNode 
self.children = {} 





def inc(selif, numOccur): 
self .count += numOcceur 


def disp(self, ind=1): 
print ' '*ind, self .name, ' ', self.count 
for child in self.children.values{): 
child.disp (ind+1) 


上 面 的 程序 给 出 了 FP 树 中 节点 的 类 定义 。 类 中 包含 用 于 存放 节点 名 字 的 变量 和 1 个 计数 值 ， 
nodeLink 变 量 用 于 链接 相似 的 元 素 项 (参考 图 12-1 中 的 虚线 )。 类 中 还 使 用 了 父 变量 parent 来 
指向 当前 节点 的 父 节 点 。 通 常情 况 下 并 不 需要 这 个 变量 ， 因 为 通常 是 从 上 往 下 迭代 访问 节点 的 。 
本 章 后 面 的 内 容 中 需要 根据 给 定 叶 子 节点 上 淹 整 棵 树 ， 这 时 就 需要 指向 父 节点 的 指针 。 最 后 ,类 
中 还 包含 一 个 空 字典 变量 ， 用 于 存放 节点 的 子 节点 。 

程序 清单 12-1 中 包括 两 个 方法 ， 其 中 inc () 对 count 变 量 增 加 给 定 值 ， 而 另 一 个 方法 aisp () 
用 于 将 树 以 文本 形式 显示 。 后 者 对 于 树 构建 来 说 并 不 是 必要 的 ， 但 是 它 对 于 调试 非常 有 用 。 

运行 一 下 如 下 代码 ; 

>>> import fpGrowth 

>>> rootNode = fpGrowth.treeNode('pyramid',9, None) 


这 会 创建 树 中 的 一 个 单 节点 。 接 下 来 为 其 增加 一 个 子 节点 : 
>>> rootNode .children['eye']=fpGrowth.treeNode{('eye', 13, None) 


为 显示 子 节点 ， 输 入 : 


>>> rootNode .Qisp() 
pyramid 9 
eye 13 


再 添加 一 个 节点 看 看 两 个 子 节点 的 展示 效果 ， 
>>> OotNode ,children['phoenix']=fpGrowth.treeNode ('Phoenix'，3，None) 
>>> rootNode .disp() 
pyYramid 9 





phoenix 3 


现在 FP 树 所 需 数据 结构 已 经 建 好 ， 下 面 就 可 以 构建 FP 树 了 。 
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12.2.2 构建 FP 树 


除了 图 12-1 给 出 的 FP 树 之 外 ,还 需要 一 个 头 指针 表 来 指向 给 定 类 型 的 第 一 个 实例 。 利 用 头 指 
针 表 ， 可 以 快速 访问 FP 树 中 一 个 给 定 类 型 的 所 有 元 素 。 图 12-2 给 出 了 一 个 头 指针 表 的 示意 图 。 





图 12-2 带头 指针 表 的 FP 树 ， 头 指针 表 作为 一 个 起 始 指针 来 发 现 相似 元 素 项 


这 里 使 用 一 个 字典 作为 数据 结构 ,来 保存 头 指针 表 。 除 了 存放 指针 外 ， 头 指针 表 还 可 以 用 来 
保存 FP 树 中 每 类 元 素 的 总 数 。 

第 一 次 饥 历 数据 集会 获得 每 个 元 素 项 的 出 现 频率 。 接 下 来 , 去 掉 不 满足 最 小 支持 度 的 元 素 项 。 
再 下 一 步 构建 FP 树 。 在 构建 时 , 读 人 每 个 项 集 并 将 其 添加 到 一 条 已 经 存在 的 路 径 中 。 如 果 该 路 径 
不 存在 ， 则 创建 一 条 新 路 径 。 每 个 事务 就 是 一 个 无 序 集合 。 假 设 有 和 集合 {zx,y} 和 {y,z,r} ， 那 么 在 
FP 树 中 ,相同 项 会 只 表示 一 次 。 为 了 解决 此 问题 ,在 将 集合 添加 到 树 之 前 ， 需 要 对 每 个 集合 进行 
排序 。 排 序 基 于 元 素 项 的 绝对 出 现 频率 来 进行 。 使 用 图 12-2 中 的 头 指 针 节点 值 ， 对 表 12-1 中 数据 
进行 过 滤 、 重 排序 后 的 数据 显示 在 表 12-2 中 。 


表 12-2 ”将 非 频 繁 项 移 除 并 且 重 排序 后 的 事务 数据 集 











事务 ID 事务 中 的 元 素 项 过 滤 及 重 排序 后 的 事务 
001 r,2, h,j,p Zr 
002 Z,y, Xx, W, V u, t,s z, X, y, S, t 
003 Z . 
~ 004 r, xX, nN, 0, S Xx, S,T 
005 y,r, Xx,2,q,t,p ZX, y, mt 
006 y, Z, Xx, ©, q, s, t, m Zz, X, y, s, t | 


在 对 事务 记录 过 滤 和 排序 之 后 ， 就 可 以 构建 FP 树 了 。 从 空 集 (符号 为 ) 开始 ， 向 其 中 不 
断 添 加 频繁 项 集 。 过 滤 、 排 序 后 的 事务 依次 添加 到 树 中 ， 如 果树 中 已 存在 现 有 元 素 ， 则 增加 现 有 
元 素 的 值 ; 如 果 现 有 元 素 不 存在 ， 则 向 树 添 加 一 个 分 枝 。 对 表 12-2 前 两 条 事务 进行 添加 的 过 程 显 
示 在 图 12-3 中 。 
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图 12-3 FP 树 构建 过 程 的 一 个 示意 图 ， 图 中 给 出 了 使 用 表 12-2 中 数据 构建 FP 树 的 前 两 步 


通过 上 面 的 叙述 , 我 们 大 致 了 解 了 从 事务 数据 集 转换 为 FP 树 的 基本 思想 , 接 下 来 我 们 通过 代 
码 来 实现 上 述 过 程 。 打 开 fpGrowth.py 文 件 ， 加 入 下 面 的 代码 。 


程序 清单 12-2 FP 树 构建 函数 
def createTree (dataSet, minSup=1): 
headerTable = {} 
for trans jn dataSet 
for item in trans: 
headerTable[item] = headerTable.get (item, 0) + dataSet [trans) 
for k in headerTable.keys () : 移 除 不 满足 最 小 . 
if headerTable[k] < minSup: 支持 度 的 元 素 项 
del (headerTable [k]) 
freqItemSset = set (headerTable .keys ()) 


if lenl(fregqIitemSet) == 0: return None, None “© 人 、 
for k in headerTable: 如 果 没有 元 素 项 满足 
headerTable[k] = [headerTable[k}, Nonel 要 求 ， 则 退出 


retTree = treeNodqe ('Null Set', 1, None) 
for transet, count in dataSet.items(): 
localD = {} 


for item in transet: / 


if item in freqItemSet : 务 中 的 元 素 进 行 排序 
localD [item] = headerTable [item] [0] 
if len(localD) > 0: 


orderedItems = fv[0] for v in sorted(localD.items(), 
key=lambda p: p[1], reverse=True)] 
updateTree (orderedItems, retTree, \ 使 用 排序 后 的 频率 项 
headerTable, count) . 集 对 树 进行 填充 


return retTree, headerTable 


Qef updateTree (items, inTree, headerTable, count): 
if items[0] in inTree.children: 

inTree.children{items [0]] .inc{count) 

else: 
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inTree.children[items [01] = treeNode (items [0}], count, inTree) 
if headerTable[items {0]] [1] == None: 

headerTablefitems [0]] [1] = inTree.chilLldrenfitems [0]] 
else: 


updateHeader (headerTable [items [0]] {1], 
inTree.children[items [0] ] ) 
if len(items) > 1: 
UpdateTree (items [1::]， inTree.childqren[icems[0]]， 


headerTable, count) 
def UpdateHeader (nodeToTest， targetNoqe) : 对 熏 下 的 元 素 项 迭代 
while (nodeTorest .nodeLink != None) : 调用 updateTree 西 数 


nodeToTest = nodeToTest .nodeLink 
nodeToTest .nodeLink = targetNode 


上 述 代码 中 包含 3 个 函数 。 第 一 个 函数 createTree () 使 用 数据 集 以 及 最 小 支持 度 作为 参数 
来 构建 PP 树 。 树 构建 过 程 中 会 遍历 数据 集 两 次 。 第 一 次 遍历 扫描 数据 集 并 统计 每 个 元 素 项 出 现 的 
频 度 。 这 些 信 息 被 存储 在 头 指针 表 中 。 接 下 来 ， 扫 描 头 指针 表 山 掉 那 些 出 现 次 数 少 于 minsup 的 
项 @。 如 果 所 有 项 都 不 频繁 ， 就 不 需要 进行 下 一 步 处 理 @。 接 下 来 ,对头 指针 表 稍 加 扩展 以 便 可 
以 保存 计数 值 及 指向 每 种 类 型 第 一 个 元 素 项 的 指针 。 然 后 创建 只 包含 空 集 合 他 的 根 节点 。 最 后 ， 
再 一 次 人 遍历 数据 集 ， 这 次 只 考虑 那些 频繁 项 合 。 这 些 项 已 经 如 表 12-2 所 示 那 样 进行 了 排序 ， 然 后 
调用 updateTree() 方 法 @。 接 下 来 讨论 函数 updateTree ()。 

为 了 让 FP 树 生长 0 ， 需 调用 upaatemree， 其 中 的 输入 参数 为 一 个 项 集 。 图 12-3 给 出 了 
updateTree () 中 的 执行 细节 。 该 函数 首先 测试 事务 中 的 第 一 个 元 素 项 是 否 作为 子 节 点 存在 。 如 
果 存 在 的 话 ， 则 更 新 该 元 素 项 的 计数 ;如 果 不 存 在 ， 则 创建 一 个 新 的 treeNode 并 将 其 作为 一 个 
子 节点 添加 到 树 中 。 这 时 ， 头 指针 表 也 要 更 新 以 指向 新 的 节点 。 更 新 头 指针 表 需 要 调用 郑 数 
updateHeader () ， 接 下 来 会 讨论 该 函数 的 细节 。upaatemzree () 完 成 的 最 后 一 件 事 是 不 断 迭 代 
调用 自身 ， 每 次 调用 时 会 去 掉 列表 中 第 一 个 元 素 @。 

程序 清单 12-2 中 的 最 后 一 个 函数 是 updateHeader ()， 它 确保 节点 链接 指向 树 中 该 元 素 项 的 
每 一 个 实例 。 从 头 指 针 表 的 nodeLink 开 始 , 一 直 沿 着 nodeLink 直 到 到 达 链 表 末 尾 。 这 就 是 一 个 
链表 。 当 处 理 树 的 时 候 , 一 种 很 自然 的 反应 就 是 迭代 完成 每 一 件 事 。 当 以 相同 方式 处 理 链 表 时 可 
能 会 遇 到 一 些 问题 ， 原 因 是 如 果 链 表 很 长 可 能 会 遇 到 迭代 调用 的 次 数 限 制 。 

在 运行 上 例 之 前 ， 还 需要 一 个 真正 的 数据 集 。 这 可 以 从 代码 库 中 获得 ， 或 者 直接 手工 输 
人 。1oadSimpDat () 函数 会 返回 一 个 事务 列表 。 这 和 表 12-1 中 的 事务 相同 。 后 面 构建 树 时 会 
使 用 createTree() 函数 ， 而 该 函数 的 输入 数据 类 型 不 是 列表 。 其 需要 的 是 一 部 字典 ， 其 中 
项 集 为 字典 中 的 键 ， 而 频率 为 每 个 键 对 应 的 取 值 。createInitset () 用 于 实现 上 述 从 列表 
到 字典 的 类 型 转换 过 程 。 将 下 列 代码 添加 到 fpGrowth.py 文 件 中 。 





A) 这 就 是 PP-grow 了 h 中 的 growth ( 生长 ) 一 词 的 来 源 。 
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程序 清单 12-3 简单 数据 集 及 数据 包装 器 


def loadSsimpDat () : 


simpDat = [['r'’, '2Z’, 'h', 站 区 'p'], 
['z', yr Xx, Ww Vi, ut, 't', 181],， 
f'z'], 
[i'r', ix', in', ior, is'], 
fry', tri, XI， ‘zo', rq', 't', 'p'], 
[ty 121， 1X1， re'!, 'q', rg!, iE rm']] 


return simpDat 


Gef createInitSet (dataSet).: 
retDict = {} 
for trans in dataSet: 
retDict [frozenset (trans)] = 1 
return retDict 


好 了 ， 下 面 看 看 实际 的 效果 。 将 程序 清单 12-3 中 的 代码 加 入 文件 pGrowth.py 之 后 ， 在 Python 
提示 符 下 输入 命令 : 


>>> reload (fpGrowth) 
<module 'fpGrowth' from 'fpGrowth.py'> 


首先 ， 导 入 数据 库 实例 : 


>>> SimpDat = fpGrowth,.,1loadSsimpDat () 
>>> simpDat 


[{'r', 上 hi', La 'p'],， ['z', 1Y1， ix', Iw', iv!, ey BE 181]， 
tier] Cte, ee My 1o!, ved ] sy Ey | 人 + ra te 'p!'],， 
[LD'y', ED 1X1， el Ks ig', LE, 'm']] 


接 下 来 为 了 函数 createTree () ， 需 要 对 上 面 的 数据 进行 格式 化 处 理 : 


>>> initSet = fpGrowth.createInitSet (simpDat) 
>>> initSet 





{frozenset(['e', ‘'m', 'q', 'g', 't', 'y!, 'x', '2z']): 1, frozenset({'x', 
i'sS', 'r', 'O', 'n']): 1, frozenset(['s', Ul, ‘ti, Wi, VS YX 
121']): 1, frozenset({f'q', ip', rt, tr, oy', ‘x', '2']): 1, 
frozenset(['h', 'r', '2z', 'p', 'j']): 1, frozenset (['z']): 1} 


于 是 可 以 通过 如 下 命令 创建 FP 树 : 
>>> myFPtree, myHeaderTab = fpGrowth,createTree (initSet, 3) 
使 用 aisp () 方 法 给 出 树 的 文本 表示 结果 ，: 


>>> myFPtree.disp() 
Null Set 1 
x 1 
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上 面 给 出 的 是 元 素 项 及 其 对 应 的 频率 计数 值 ， 人 读者 可 以 
验证 一 下 这 棵 树 与 图 12-2 中 所 示 的 树 是 否 等 价 。 
现在 我 们 已 经 构建 了 FP 树 ， 接 下 来 就 使 用 它 进行 频繁 项 集 挖 拉 。 


12.3 ”从 一 棵 FP 树 中 挖掘 频繁 项 集 


实际 上 ， 到 现在 为 止 大 部 分 比较 困难 的 工作 已 经 处 理 完了 。 接 下 来 写 的 代码 不 会 再 像 12.1 节 
那样 多 了 。 有 了 FP 树 之 后 ,就 可 以 抽取 频繁 项 集 了 。 这 里 的 思路 与 Apriori 算 法 大 致 类 似 , 首先 从 
单元 素 项 集合 开始 , 然后 在 此 基础 上 逐步 构建 更 大 的 集合 。 当 然 这 里 将 利用 FP 树 来 做 实现 上 述 过 
程 ， 不 再 需要 原始 数据 集 了 。 

从 FP 树 中 抽取 频繁 项 集 的 三 个 基本 步骤 如 下 : 

(1) 从 FP 树 中 获得 条 件 模式 基 ; 

(2) 利用 条 件 模式 基 ， 构 建 一 个 条 件 FP 树 ; 

(3) 迭代 重复 步骤 (D) 步 又 (2)， 直 到 树 包含 一 个 元 素 项 为 止 。 

接 下 来 重点 关注 第 (1) 步 ， 即 寻找 条 件 模式 基 的 过 程 。 之 后 , 为 每 一 个 条 件 模式 基 创 建 对 应 的 
条 件 FP 树 。 最 后 需要 构造 少许 代码 来 封装 上 述 两 个 函数 ， 并 从 FP 树 中 获得 频繁 项 集 。 


12.3.1 抽取 条 件 模式 基 


首先 从 上 一 节 发 现 的 已 经 保存 在 头 指针 表 中 的 单个 频繁 元 素 项 开始 。 对 于 每 一 个 元 素 项 , 获 
得 其 对 应 的 条 件 模 式 基 (conditional pattern base )。 条 件 模式 基 是 以 所 查找 元 素 项 为 结尾 的 路 径 集 
合 。 每 一 条 路 径 其 实 都 是 一 条 前 级 路 径 (prefixpath )。 简 而 言 之 ,一 条 前 缀 路 径 是 介 于 所 查找 元 
素 项 与 树 根 节点 之 间 的 所 有 内 容 。 

回 到 图 12-2, 符号 :的 前 缀 路 径 是 {x,s} 、{z,x,y} 和 {z}。 每 一 条 前 缀 路 径 都 与 一 个 计数 值 关联 。 
该 计数 值 等 于 起 始 元 素 项 的 计数 值 , 该 计数 值 给 了 每 条 路 径 上 r 的 数 自 。 表 12-3 列 出 了 上 例 当中 每 
一 个 频繁 项 的 所 有 前 缀 路 径 。 


表 12-3 ”每 个 频繁 项 的 前 缀 路 径 

项 前 缀 路 径 
{}5 
{x,s}1, {2,x,y}1, {2}1 
{2}3, {}1 
{Z,x}3 
{zx,y}2, {x}1 
{ZX,y,5}2, {2,x,y,r}1 








~ < x -= NI| 演 


前 级 路 径 将 被 用 于 构建 条 件 FP 树 , 但 是 现在 暂时 先 不 需要 考虑 这 件 事 。 为 了 获得 这 些 前 缀 路 
径 , 可 以 对 树 进行 穷 举 式 搜索 ， 直 到 获得 想 要 的 频繁 项 为 止 , 或 者 使 用 一 个 更 有 效 的 方法 来 加 速 
搜索 过 程 。 可 以 利用 先前 创建 的 头 指针 表 来 得 到 一 种 更 有 效 的 方法 。 头 指针 表 包 含 相同 类 型 元 素 
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链表 的 起 始 指针 。 一 旦 到 达 了 每 一 个 元 素 项 ， 就 可 以 上 淹 这 棵 树 直 到 根 节 点 为 止 。 
下 面 的 程序 清单 给 出 了 前 级 路 径 发 现 的 代码 ， 将 其 添加 到 文件 pbGrowth py 中。 


程序 清单 12-4 ”发 现 以 给 定 元 素 项 结尾 的 所 有 路 径 的 函数 
def ascendTree (1eafNodqe，PprefixPath) : 
if leafNodqe .Parent != None 
prefixpath.append (leafNode .name) -6 迭代 上 漳 整 棵 树 
ascendTree (leafNode .parent, prefixpath) 
def findPrefixPath (basePat, treeNode): 
condPats = {} 
while treeNode 1i= None: 
prefixpPpath = [] 
ascendTree (treeNode, prefixPath) 
if len(prefixPath) > 1: 
condpats [frozenset (prefixpPath[1:])] = treeNode.count 
treeNode = treeNode .nodeLink 
return condPats 


上 述 程序 中 的 代码 用 于 为 给 定 元 素 项 生成 一 个 条 件 模式 基 , 这 通过 访问 树 中 所 有 包含 给 定 元 
素 项 的 节点 来 完成 。 当 创建 树 的 时 候 ， 使 用 头 指针 表 来 指向 该 类 型 的 第 一 个 元 素 项 ， 该 元 素 项 也 
会 链接 到 其 后 续 元 素 项 。 玉 数 finaqPrefixPath () 遍 历 链 表 直 到 到 达 结 尾 。 每 遇 到 一 个 元 素 项 都 
会 调用 ascendTree () 来 上 测 FP 树 ， 并 收集 所 有 遇 到 的 元 素 项 的 名 称 @。 该 列表 返回 之 后 添加 到 
条 件 模式 基 字 典 condPats 中 。 

使 用 之 前 构建 的 树 来 看 一 下 实际 的 运行 效果 : 


>>> reload (fpGrowth)} 

<module 'fpGrowth' from 'fpGrowth.py'> 

>>> fpGrowth.findprefixpath{('x', myHeaderTab['x'] [1]) 

{frozenset (['z']): 3} 

>>> fpGrowth.findPprefixPath('z', myHeaderTab['z'] [1]) 

{} 

>>> fpGrowth.findPrefixpath('r', myHeaderTab{'r'] [1]) 

{frozenset (['x', 's']): 1i, frozenset (['z']): 1, 
frozenset (['y', 'x', 'z2']):; 1} 


读者 可 以 检查 一 下 这 些 值 与 表 12- 3 中 的 结果 是 否 _ 致 有 了 条 件 模式 基 之 后 ， 就 可 以 创建 条 
件 FP 树 。 


12.3.2 ”创建 条 件 FP 树 


对 于 每 一 个 频繁 项 ， 都 要 创建 一 棵 条 件 FP 树 。 我 们 会 为 >、x 以 及 其 他 频繁 项 构建 条 件 树 。 可 
以 使 用 刚才 发 现 的 条 件 模式 基 作 为 输入 数据 ， 并 通过 相间 的 建树 代码 来 构建 这 些 树 。 然 后 , 我 们 
会 递归 地 发 现 频繁 项 、 发 现 条 件 模 式 基 ， 以 及 发 现 另外 的 条 件 树 。 举 个 例子 来 说 ,假定 为 频繁 项 
t 创 建 一 个 条 件 FP 树 ,然后 对 {by}、{fbx}、…' 重 复 该 过 程 。 元 素 项 t 的 条 件 FP 树 的 构建 过 程 如 图 12-4 
所 示 。 
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t 的 条 件 FP 树 
条 件 模 式 基 :; {y,x,s,z}:2, {y,x,r,z)}:1 
最 小 支持 度 = 3 
去 掉 : SE&r 


加 入 {y,x,z}:2 





图 12-4”t 的 条 件 FP 树 的 创建 过 程 。 最 初 树 以 空 集 作为 根 节点 。 接 下 来 ,原始 的 集 
合 {y,x,s,z} 中 的 集合 {y,x,z} 被 添加 进来 。 因 为 不 满足 最 小 支持 度 要 求 ， 字 . 
符 s 并 没有 加 入 进来 。 类 似 地 ，{y,x,z} 也 从 原始 集合 {y,x,r,z} 中 添加 进来 


在 图 12-4 中 ,注意 到 元 素 项 s 以 及 r 是 条 件 模 式 基 的 一 部 分 , 但 是 它们 并 不 属于 条 件 FP 树 。 原 
_ 困 是 什么 ?” 如果 讨论 s 以 及 r 的 话 ， 它 们 难道 不 是 频繁 项 四 ? 实际 上 单独 来 看 它们 都 是 频繁 项 ， 但 
是 在 t 的 条 件 树 中 ， 它 们 却 不 是 频繁 的 ， 也 就 是 说 ，{tr} 及 {t,s} 是 不 频繁 的 。 

接 下 来 ， 对 集合 {tz} 、{bx} 以 及 {ty} 来 挖掘 对 应 的 条 件 树 。 这 会 产生 更 复杂 的 频繁 项 集 。 该 
过 程 重 复 进行 ， 直 到 条 件 树 中 没有 元 素 为 止 ， 然 后 就 可 以 停止 了 。 实 现代 码 相对 比较 直观 ， 使 用 
一 些 递归 加 上 之 前 写 的 代码 就 可 以 完成 。 打 开 fpGrowth.py， 将 下 面 程序 中 的 代码 添加 进去 。 


程序 清单 12-5 ”递归 查找 频繁 项 集 的 mineTree 函 数 
def mineTree (inTree, headerTable, minSup, preFix, freqIitemList): 
bigL = [v[0] for v in sorted(headerTable.items(), 从 头 指 针 表 的 底 端 开始 
key=lambda p: p[1])] 
for basepPat in bigL: 
newFregqSet = PreFix.copy() 
newFreqSet .add (basePat) 
freqIitembist .append (newFreqSet) 
condpattBases = findprefixpath{(basePat, headerTable [basepat] [1]) 
myCondTree, myHead = createTree (condPattBases,\ 
minSup) 


if myHead != None: 
mineTree (myCondTree, myHead, minSup, newFreqSet, freqItemList) 


从 条 件 模式 基 来 构建 条 件 FP 树 


挖掘 条 件 FP 树 
创建 条 件 树 、 前 缀 路 径 以 及 条 件 基 的 过 程 听 起 来 比较 复杂 , 但 是 代码 起 来 相对 简单 。 程 序 首 
先 对 头 指针 表 中 的 元 素 项 按照 其 出 现 频率 进行 排序 。( 记 住 这 里 的 默认 顺序 是 按照 从 小 到 大 。)@ 
然后 ， 将 每 一 个 频繁 项 添加 到 频繁 项 集 列 表 freqTtemList 中 。 接 下 来 ， 递 归 调用 程序 清单 12-4 
中 的 findPrefixPath() 函数 来 创建 条 件 基 。 该 条 件 基 被 当成 一 个 新 数据 集 输 送 给 create- 
Tree () 函数 。@@ 这 里 为 函数 createTree () 添加 了 足够 的 灵活 性 ， 以 确保 它 可 以 被 重用 于 构建 








| 
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条 件 树 。 最 后 ， 如 果树 中 有 元 素 项 的 话 ， 递 归 调 用 mineTree () 函数 @。 
下 面 将 整个 程序 合并 到 一 块 看 看 代码 的 实际 运行 效果 。 将 程序 清单 12-5 中 的 代码 添加 到 文件 
fpGrowth.py 中 并 保存 ， 然 后 在 Python 提 示 符 下 输入 : 


>>> reload (fpGrowth) 
<module 'fpGrowth' from 'fpGrowth.py'> 


下 面 建立 一 个 空 列表 来 存储 所 有 的 频繁 项 集 : 
>>> freqItems = [] 


接 下 来 运行 mineTree () ， 显 示 出 所 有 的 条 件 树 : 


>>> fpGrowth.mineTree (myFPtree, myHeaderTab, 3, set([]), freqItems) 
conditional tree for: set{['y']) 
Null Set 1 


x 3 
[4 3 
conditional tree for: setl([l'y', 'z’']) 
Null Set 1 
x 3 


conditional tree for: set(['s']) 
Null Set J 
xX 3 
conditional tree for: set(['t']) 
Null Set 1 
y 3 
x 3 
Zz 3 
conditional tree for: setl(['x', 't']) 
Null Set 1 


y 3 
conditional tree for: set(['z', 't']) 
Nuil Set 1 
y 3 
x 3 
conditional tree for: set({'x', 'z', ‘'t']) 
Null Set 1 
y 3 


conditional ttee for: set(['x']) 
Nulli Set 1 
将 涪 


为 了 获得 类 似 于 前 面 代 码 的 输出 结果 ， 我 在 函数 mineTree () 中 添加 了 两 行 ， 


print 'conditional tree for: ',newFregSet 
myCondTree .disp (1) 


这 两 行 被 添加 到 程序 中 语句 if myHead 1= None: 和 mineTree() 函数 调用 之 间 。 
下 面 检查 一 下 返回 的 项 集 是 否 与 条 件 树 匹配 : 


>>> freqItems 
[set (['y']), set(['y', 'z']), set([l'y', ‘x', '2']), set([l'y', 'x']), 
set (I's'}), set(['x', 's']), set{({'t']), set(['y', 't']), set{(['x', 
‘tt']), set(['y’', 'x', 't']), set(['z', 't']), set(['y', 'z2', 't']), 
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set (['x', 'z', 't']), set({'y', xz 't']), set(('r']), set(['x'}), 
Set (['x', '2']), set({'z'])] 


正如 我 们 所 期 望 的 那样 ， 返 回 项 集 与 条 件 FP 树 相 匹 配 。 到 现在 为 主 ， 完 整 的 FP-growth 算 法 
已 经 可 以 运行 ， 接 下 来 在 一 个 真实 的 例子 上 看 一 下 运行 效果 。 我 们 将 看 到 是 否 能 从 微 博 网 站 
Twitter 中 获得 一 些 常 用 词 。 


12.4 示例 ;在 Twitter 源 中 发 现 一 些 共 现 词 


我 们 会 用 到 一 个 叫做 python-twitter 的 Python 库 ， 其 源 代码 可 以 在 http://code.google 
com/p/ python-twitter/ 下 载 。 正 如 你 猜 到 的 那样 ， 借 助 它 ， 我 们 可 以 使 用 Python 来 访问 Twitter。 
Twittercom 实 际 上 是 一 个 和 其 他 人 进行 交流 的 通道 ， 其 上 发 表 的 内 容 被 限制 在 140 个 字符 以 内 ， 
发 表 的 一 条 信息 称 为 推 文 ( tweet )。 

有 关 Twitter API 的 文档 可 以 在 http://dev.twitter.com/doc 找 到 。API 文 档 与 Python 模 块 中 的 关键 
词 并 不 完全 一 致 。 我 推荐 直接 阅读 Python 文 件 twitter.py， 以 完全 理解 库 的 使 用 方法 。 有 关 该 模块 
的 安装 可 以 参考 附录 A。 虽 然 这 里 只 会 用 到 函数 库 的 一 小 部 分 ， 但 是 使 用 API 可 以 做 更 多 事情 ， 
所 以 我 鼓励 读者 去 探索 一 下 API 的 所 有 功能 。 





(1) 收集 数据 ， 使 用 Bt is Eweter 模 央 来 以 门 推广 。 

(2) 准备 数据 : 编写 一 个 函数 来 去 掉 URL、 去 掉 标 点 、 转 换 成 小 写 并 从 字符 串 中 建立 一 个 
单词 集合 

(3) 分 析 教 据 ， 在 Python 提示 符 下 查看 准备 好 的 数据 ， 确 保 它 的 正确 性 。 

(4) 训练 算法 : 使 用 本 章 前 面 开 发 的 createTree () 与 mineTree () a 

($) 测试 算法 这 里 不 适用 。 

(6) 使 用 算法 本 例 中 没有 包含 具体 应 用 ， 可 以 考虑 用 于 情感 分 析 或 者 查询 推荐 领域 。 


在 使 用 API 之 前 ， 需 要 两 个 证 书 集合 。 第 一 个 集合 是 consumer_key 和 consumer_secret， 当 
注册 开发 app 时 《https://dev.twitter.com/apps/new )， 可 以 从 Twitter 开发 服务 网 站 获得 。 这 些 key 
对 于 要 编写 的 app 是 特定 的 。 第 二 个 集合 是 access_token_key 和 access_token_secret, 它们 是 针对 
特定 Twitter 用 户 的 。 为 了 获得 这 些 key, 需要 查看 Twitter-Python 安装 包 中 的 get_access_token.py 
文件 (或 者 从 Twitter 开发 网 站 中 获得 )。 这 是 一 个 命令 行 的 Python 拷 本, 该 脚本 使 用 OAuth 来 告 
诉 Twitter 应 用 程序 具有 用 户 的 权限 来 发 布 信息 。 一 旦 完成 上 述 工作 之 后 ,可 以 将 获得 的 值 放 入 
前 面 的 代码 中 开始 工作 。 对 于 给 定 的 搜索 词 ， 下 面 要 使 用 FP_growth 算 法 来 发 现 推 文中 的 频繁 
单词 集合 。 要 提取 尽 可 能 多 的 推 文 (1400 条 ) 然后 放 到 FP_growth 算 法 中 运行 。 将 下 面 的 代码 
添加 到 fpGrowth.py 文 件 中 。 
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程序 清单 12-6 ”访问 Twitter Python 库 的 代码 


import twitter 
from time import sleep 
import re 


def getLotsOfTweets (searchstr): 
CONSUMER_ KEY = 'get when you create an apPp' 
CONSUMER_SECRET = 'get when you create an apP' 
ACCESS_TOKEN KEY = 'get from Oauth, specific to a user! 
ACCESS_ TOKEN_SECRET = 'get from Oauth, specific to a USeL' 
api = twitter.Api (consumer key=CONSUMER KEY, 
consumer_ secret=CONSUMER_SECRET, 
access token key=ACCESS _ TOKEN_KEY, 
access_ token secret=ACCESS TOKEN SECRET) 
#you can get 1500 results 15 pages * 100 Per page 
resultsPages = [] 
for i in range(1,15): 
print "fetching page %d" % i 
searchResults = api.GetSearch(searchstr, per page=100, page=i) 
resultsPages.append(searchResults) 
sleep(6) 
return resultsPages 


这 里 需要 导 人 三 个 库 ， 分 别 是 twittez 库 、 用 于 正则 表达 式 的 库 ， 以 及 sleep 函 数 。 后 面 会 
使 用 正则 表示 式 来 帮助 解析 文本 。 

函数 getLotsofTmweets () 处 理 认证 然后 创建 一 个 空 列表 。 搜 索 API 可 以 一 次 获得 100 条 推 
文 。 每 100 条 推 文 作为 一 页 ， 而 Twitter 允许 一 次 访问 14 页 。 在 完成 搜索 调用 之 后 ， 有 一 个 6 秒 钟 的 
睡眠 延迟 ， 这 样 做 是 出 于 礼貌 ， 避 免 过 于 频繁 的 访问 请 求 。print 语 句 用 于 表明 程序 仍 在 执行 没 
有 死 掉 。 

下 面 来 抓 取 一 些 推 文 ， 在 Python 提 示 符 下 输入 : 


>>> reload (fpGrowth) 
<module 'fpGrowth' from 'fpGrowth.py'> 


接 下 来 要 搜索 一 支 名 为 RIMM 的 股票 


>>> lotsOtweets = fpGrowth .getLotsOfTweets ('RIMM') 
fetching page 1 
fetching page 2 


lotsOtweets 列 表 包 含 14 个 子 列表 ， 每 个 子 列表 有 100 条 推 文 。 可 以 输入 下 面 的 命令 来 查看 推 文 
的 内 容 : 


>>> lotsOtweets [0] [4] .text 
UnRIM: Open The Network, Says ThinkEquity: In addition, RIMM needs to 
reinvent its image, not only demonstrating ... http://bit.1ly/1lv1lViU" 


正如 所 看 到 的 那样 ， 有些 人 会 在 推 文中 放 人 URL。 这 样 在 解析 时 ,结果 就 会 比较 乱 。 因 此 必须 去 
掉 URL, 以 便 可 以 获得 推 文中 的 单词 。 下 面 程序 清单 中 的 一 部 分 代码 用 来 将 推 文 解析 成 字符 串 列 
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表 ， 另 一 部 分 会 在 数据 集 上 运行 FP-growth 算 法 。 将 下 面 的 代码 添加 到 fpGrowth.py 文 件 中 。 
程序 清单 12-7 文本 解析 及 合成 代码 


def textParse (bigString) : 
urlsRemoved = re.sub{' (http[s]?:{/]{/] |www.) ([a-z] | {A-2] | [0-9] 1 [/ 
.| [~])*', , 
1'', bigSstring) 
listOfTokens = re.split(r'\W*', urlsRemoved) 
return [tok.lower() for tok in listOofTokens if len(tok) > 2] 


def mineTweets (tweetArr, minSup=5): 
parsedList = [} . 
for i in range (14): 
for j in range (100): 
parsedList.append (textParse (tweetArr [i] [j] .text)) 
initSet = createlnitSet (parsedList) 
myFPtree, myHeaderTab = createTree (initset, minSup) 
myFreqList = [] 
mineTree (myFPtree, myHeaderTab, minSup, set ([]), myFreqList) 
return myFreqList 


上 述 程序 清单 中 的 第 一 个 函数 来 自 第 4 章 ， 此 外 这 里 添加 了 一 行 代码 用 于 去 除 URL。 这 里 通 
过 调用 正则 表达 式 模块 来 移 除 任何 URL。 程 序 清单 12-7 中 的 另 一 个 函数 mineTweets ( ) 为 每 个 扒 
文 调用 textParse。 最 后 ，mineTweets () 函数 将 12.2 节 中 用 过 的 命令 封装 到 一 起 ， 来 构建 FP 树 
站 2 寻 们 机 吾 后 过 加 胎生 频 和 国 案 组 茂 四 起 | 

下 面 看 看 运行 的 效果 

>>> reload (fpGrowth) 

<module 'fpGrowth' from 'fpGrowth.py'> 

Let's look for sets that occur more than 20 times: 

>>> listOfTerms = fpGrowth.mineTweets (lotsOtweets, 20) 

How many sets occurred in 20 or more of the documents? 

>>> len(listofTerms) 

455 


我 写 这 段 代码 的 前 一 天 ， 一 家 以 RIMM 股 票 代码 进行 交易 的 公司 开 了 一 次 电话 会 议 ， 会 议 _ 
Ee a i he ee a 
中 体现 : 


>>> for 七 in listOofTerms: 

print t 
set([u'rimm’', u'day'])} 
set({u'rimm', u'earnings':]) 
set{[u'pounding', u'value']) 
set([u'pounding', u'overnight']) 
set([u'pounding', u'drops']) 
set([u'pounding', u'shares']) 
set ({[{u'pounding', u'are']) 
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set {[u'overnight']) 

set([u'drops', u'overnight']) 

set({u'motion', u'drops', u'overnight']) 

set ([u'motion', u'drops', u'overnight', u'value’]) 
set([u'drops', u'overnight', u'research']) 

set([u'drops', u'overnight', u'value', u'research'])) 
set([u'motion', u'drops', u'overnight', u'value', u'research']) 
set([u'motion', u'drops', u'overnight', u'research']) 

set ([u'drops', u'overnight', u'value']) 


”尝试 一 些 其 他 的 minsupport 值 或 者 搜索 词 也 是 齐 有 趣 的 。 
我 们 还 记得 FP 树 的 构建 是 通过 每 次 应 用 一 个 实例 的 方式 来 完成 的 ,这 里 假设 已 经 获得 了 所 有 
数据 ， 所 以 刚才 是 直接 遍历 所 有 的 数据 来 构建 FP 树 的 。 实 际 上 可 以 重 写 createTree() 函数 ， 每 
次 读 入 一 个 实例 ， 并 随 着 Twitter 流 的 不 断 输 入 而 不 断 增长 树 。FP-growth 算 法 还 有 一 个 map-reduce 
版 本 的 实现 , 它 也 很 不 错 , 可 以 扩展 到 多 台 机 器 上 运行 。Google 使 用 该 算法 通过 遍历 大 量 文本 来 
发 现 频 繁 共 现 词 ， 其 做 法 和 我 们 刚才 介绍 的 例子 非常 类 似 ?。 


12.5 “示例 :， 从 新 闻 网 站 点 击 流 中 挖掘 


好 了 ， 本 章 的 最 后 一 个 例子 很 酷 ， 而 你 有 可 能 正在 想 ;“ 伙 计 ， 这 个 算法 应 该 很 快 ， 因 为 只 
有 1400 条 推 文 !” 你 的 想法 是 正确 的 。 下 面 在 更 大 的 文件 上 看 下 运行 效果 。 在 源 数 据 集合 中 ， 有 
一 个 Kosarak.dat 文 件 ， 它 包含 将 近 100 万 条 记录 8。 该 文件 中 的 每 一 行 包含 某 个 用 户 浏 览 过 的 新 闻 
报道 。 一 些 用 户 只 看 过 一 篇 报道 ， 而 有 些 用 户 看 过 2498 篇 报道 。 用 户 和 报道 被 编码 成 整数 ， 所 以 
查看 频繁 项 集 很 难得 到 更 多 的 东西 ， 但 是 该 数据 对 于 展示 FP-growth 算 法 的 速度 十 分 有 效 。 

首先 ， 将 数据 集 导 人 到 列表 ，; 

>>> parsedDat = [line.split() for iine in open('kosarak.dat') .readlines()] 
接 下 来 需要 对 初始 集合 格式 化 : 

>>> initSet = fpGrowth.createinitSet (parsedDat) 
然后 构建 FP 树 ， 并 从 中 寻找 那些 至 少 被 10 万 人 浏览 过 的 新 闻 报道 。 

>>> myFPtree, myHeaderTab = fpGrowth,createTree (initSet，100000) 

在 我 这 人 台 简 三 的 笔记 本 电脑 上 ， 构 建树 以 及 扫描 100 万 行 只 需要 几 秒 钟 ， 这 展示 了 FP-growth 
算法 的 强大 威力 。 下 面 需要 创建 一 个 空 列 表 来 保存 这 些 频繁 项 集 ， 


>>> myFreqList = [] 
>>> fpGrowth.mineTree (myFPtree, myHeaderTab, 100000, set([]), myFreqList) 


接 下 来 看 下 有 多 少 新 闻 报道 或 报道 集合 曾经 被 10 万 或 者 更 多 的 人 浏览 过 ， 








@ H. Li, Y. Wang, D. Zhang, M. Zhang, E. Chang, “PFP: Parallel FP-Growth for Query Recommendation” RecSys’08, Proceedings of 
the 2008 ACM Conference on Recommender Systems; http://infolab.stanford.eduw/~ echang/recsys08-69.pdf. 

@) Hungarian online news portal clickstream retrieved July 11, 2011; from Frequent Itemset Mining Dataset Repository, 
http://fimi.ua.ac.be/data/, donated by Ferenc Bodon. 
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>>> len(myFreqList) 


9 
总 共有 9 个 。 下 面 看 看 都 是 哪些 : 


>>> myFreqList 
[set ({['1']), set([{'1', '6']), set(['3']}), set(['11', '3']), set(['11', '3', 
'6']), set(['3', '6']), set(['11']), set(['1i1', '6']), set(['6'])] 


可 以 使 用 其 他 设置 来 查看 运行 结果 ， 比 如 降低 置信 和 度 级 别 。 
12.6 ”本 章 小 结 


FP-growth 算 法 是 一 种 用 于 发 现 数据 集中 频繁 模式 的 有 效 方 法 。FP-growth 算 法 利用 Apriori 原 
则 ， 执 行 更 快 。Apriori 算 法 产生 候选 项 集 ， 然 后 扫 朱 数据 集 来 检查 它们 是 否 频 繁 。 由 于 只 对 数据 
集 扫 描 两 次 ， 因 此 FP-growth 算 法 执行 更 快 。 在 FP-growth 算 法 中 ， 数 据 集 存储 在 一 个 称 为 FP 树 的 
结构 中 。FP 树 构建 完成 后 ， 可 以 通过 查找 元 素 项 的 条 件 基 及 构建 条 件 FP 树 来 发 现 频繁 项 集 。 该 
过 程 不 断 以 更 多 元 素 作为 条 件 重 复 进行 ， 直 到 FP 树 只 包含 一 个 元 素 为 止 。 

可 以 使 用 PP-growth 算 法 在 多 种 文本 文档 中 查找 频繁 单词 Twitter 网 站 为 开发 者 提供 了 大 量 的 
API 来 使 用 他 们 的 服务 。 利 用 Python 模块 python-Twitter 可 以 很 容易 访问 Twitter。 在 Twitter 源 
上 对 某 个 话题 应 用 FP-growth 算 法 ， 可 以 得 到 一 些 有 关 该 话题 的 摘要 信息 。 频 繁 项 集 生 成 还 有 其 
他 的 一 些 应 用 ， 比 如 购物 交易 、 医 学 诊断 及 大 气 研究 等 。 

下 面 几 章 会 介绍 一 些 附属 工具 。 第 13 章 和 第 14 章 会 介绍 一 些 降 维 技术 , 使 用 这 些 技术 可 以 提 
炼 数据 中 的 重要 信息 并 且 移 除 噪声 。 第 14 章 会 介绍 Map Reduce 技 术 ， 当 数据 量 超过 单 台 机 器 的 处 
理 能 力 时 ， 将 会 需要 这 些 技 术 。 
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其 他 工具 





本 书 第 四 部 分 即 是 最 后 一 部 分 ， 主 要 介绍 在 机 器 学 习 实践 时 常用 的 一 些 其 他 工具 ， 它 们 可 
以 应 用 于 前 三 部 分 的 算法 上 。 这 些 工具 还 包括 了 可 以 对 前 三 部 分 中 任 一 算法 的 输入 数据 进行 预 
处 理 的 降 维 技术 。 这 一 部 分 还 包括 了 在 上 千 台 机 器 上 分 配 作业 的 Map Reduce 技术 。 

降 维 的 目标 就 是 对 输入 的 数目 进行 削减 ， 由 此 剔除 数据 中 的 噪声 并 提高 机 器 学 习 方法 的 性 
能 。 第 13 章 将 介绍 按照 数据 方差 最 大 方向 调整 数据 的 主 成 分 分 析 降 维 方 法 。 第 14 章 解释 奇异 
值 分 解 ， 它 是 和 矩阵 分 和 解 技术 中 的 一 种 ， 通 过 对 原始 数据 的 逼近 来 达到 降 维 的 目的 。 

第 15 章 是 本 书 的 最 后 一 章 ， 主 要 讨论 了 在 大 数据 下 的 机 器 学 习 。 大 数据 (big data) 指 的 
就 是 数据 集 很 大 以 至 于 内 存 不 足以 将 其 存放 。 如 果 数 据 不 能 在 内 存 中 存放 ， 那 么 在 内 存 和 磁盘 
之 间 传 输 数据 时 就 会 浪费 大 量 的 时 间 。 为 了 避免 这 一 点 ， 我 们 就 可 以 将 整个 作业 进行 分 片 ， 这 
样 就 可 以 在 多 机 下 进行 并 行 处 理 。Map Reduce 就 是 实现 上 述 过 程 的 一 种 流行 的 方法 ， 它 将 作业 
分 成 了 Map 任务 和 Reduce 任务 。 第 15 章 将 介绍 Python 中 Map Reduce 实现 的 一 些 常用 工具 ， 
同时 也 介绍 了 将 机 器 学 习 转 换 成 满足 Map Reduce 编程 范式 的 方法 。 
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本 章 内 容 

口 降 维 技术 

口 主 成 分 分 析 (PCA ) 

口 对 半导体 数据 进行 降 维 处 理 


想象 这 样 一 种 场景 : 我 们 正 通过 电视 而 非 现 场 观看 体育 比赛 , 在 电视 的 纯 平 显示 器 上 有 一 个 
球 。 显 示 嚣 大概 包 含 了 100 万 像素 ， 而 球 则 可 能 是 由 较 少 的 像素 组 成 的 ， 比 如 说 一 千 个 像素 。 在 
大 部 分 体育 比赛 中 , 我们 关注 的 是 给 定时 刻 球 的 位 置 。 人 的 大 脑 要 想 了 解 比赛 的 进展 ， 就 需要 了 
解 球 在 运动 场 中 的 位 置 。 对 于 人 来 说 ， 这 一 切 显 得 十 分 自然 ， 甚 至 都 不 需要 做 任何 思考 。 在 这 个 
场景 当中 ,人 们 实时 地 将 显示 器 上 的 百 万 像素 转换 成 为 了 一 个 三 维 图 像 , 该 图 像 就 给 出 了 运动 场 
上 球 的 位 置 。 在 这 个 过 程 中 ， 人 们 已 经 将 数据 从 一 百 万 维 降 至 了 三 维 。 

在 上 述 体育 比赛 的 例子 中 ， 人们 面 对 的 原本 是 百 万 像素 的 数据 , 但 是 只 有 球 的 三 维 位 置 才 最 
重要 ， 这 就 被 称 为 降 维 ( dimensionality reduction )。 刚 才 我 们 将 超 百 万 的 数据 值 降 到 了 只 有 三 个 
相关 值 。 在 低 维 下 ， 数 据 更 容易 进行 处 理 。 另 外 ， 其 相关 特征 可 能 在 数据 中 明确 地 显示 出 来 。 通 
常 而 言 ， 我 们 在 应 用 其 他 机 器 学 习 算法 之 前 ， 必 须 先 识别 出 其 相关 特征 。 

本 章 是 涉及 降 维 主题 的 两 章 中 的 第 一 章 。 在 降 维 中 ， 我们 对 数据 进行 了 预 处 理 。 之 后 , 采用 
其 他 机 器 学 习 技术 对 其 进行 处 理 。 本 章 一 开始 对 降 维 技术 进行 了 综述 , 然后 集中 介绍 一 种 应 用 非 
常 普遍 的 称 为 主 成 分 分 析 的 技术 。 最 后 ， 我 们 就 通过 一 个 数据 集 的 例子 来 展示 PCA 的 工作 过 程 。 
经 过 PCA 处 理 之 后 ， 该 数据 集 就 从 590 个 特征 降低 到 了 6 个 特征 。 


13.1 降 维 技术 


始终 贯穿 本 书 的 一 个 难题 就 是 对 数据 和 结果 的 展示 , 这 是 因为 这 本 书 只 是 二 维 的 , 而 在 通常 
的 情况 下 我 们 的 数据 不 是 如 此 。 有 时 我 们 会 显示 三 维 图 像 或 者 只 显示 其 相关 特征 , 但 是 数据 往往 
拥有 超出 显示 能 力 的 更 多 特征 。 数据 显示 并 非 大 规模 特征 下 的 唯一 难题 ， 对 数据 进行 简化 还 有 如 
下 一 系列 的 原因 

口 使 得 数据 集 更 易 使 用 ; 
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口 降低 很 多 算法 的 计算 开销 ; 
口 去 除 噪 声 ; 
口 使 得 结果 易 懂 。 

在 已 标注 与 未 标注 的 数据 上 都 有 降 维 技术 。 这 里 我 们 将 主要 关注 未 标注 数据 上 的 降 维 技术 ， 
该 技术 同时 也 可 以 应 用 于 已 标注 的 数据 。 

第 一 种 降 维 的 方法 称 为 主 成 分 分 析 〈 Principal Component Analysis，PCA )。 在 PCA 中 ， 数 据 
从 原来 的 坐标 系 转换 到 了 新 的 坐标 系 , 新 坐标 系 的 选择 是 由 数据 本 身 决定 的 。 第 一 个 新 坐标 轴 选 
择 的 是 原始 数据 中 方差 最 大 的 方向 , 第 二 个 新 坐标 轴 的 选择 和 第 一 个 坐标 轴 正 交 且 具有 最 大 方差 
的 方向 。 该 过 程 一 直 重 复 , 重复 次 数 为 原始 数据 中 特征 的 数目 。 我 们 会 发 现 ， 大 部 分 方差 都 包含 
在 最 前 面 的 几 个 新 坐标 轴 中 。 因 此 ,我 们 可 以 忽略 余下 的 坐标 轴 ， 即 对 数据 进行 了 降 维 处 理 。 在 
13.2 节 我 们 将 会 对 PCA 的 细节 进行 深入 介绍 。 

另外 一 种 降 维 技术 是 因子 分 析 ( Factor Analysis )。 在 因子 分 析 中 ， 我 们 假设 在 观察 数据 的 生 
成 中 有 一 些 观 察 不 到 的 隐 变 量 〈latent variable )。 假 设 观 察 数据 是 这 些 隐 变 量 和 某 些 噪声 的 线性 
组 合 。 那 么 隐 变 量 的 数据 可 能 比 观 察 数据 的 数目 少 , 也 就 是 说 通过 找到 隐 变 量 就 可 以 实现 数据 的 
降 维 。 因 子 分 析 已 经 应 用 于 社会 科学 、 金 融和 其 他 领域 中 了 。 

”还 有 一 种 降 维 技术 就 是 独立 成 分 分 析 ( Independent Component Analysis，ICA )。ICA 假 设 数 
据 是 从 N 个 数据 源 生成 的 , 这 一 点 和 因子 分 析 有 些 类 似 。 假设 数据 为 多 个 数据 源 的 混合 观察 结果 ， 
这 些 数据 源 之 间 在 统计 上 是 相互 独立 的 ， 而 在 PCA 中 只 假设 数据 是 不 相关 的 。 同 因子 分 析 一 样 ， 
如 果 数 据 源 的 数目 少 于 观察 数据 的 数目 ， 则 可 以 实现 降 维 过 程 。 

在 上 述 3 种 降 维 技术 中 ，PCA 的 应 用 目前 最 为 广泛 ， 因 此 本 章 主要 关注 PCA。 在 下 一 节 中 ， 
我 们 将 会 对 PCA 进 行 介绍 ， 然 后 再 通过 一 段 Python 代码 来 运行 PCA。 


13.2 PCA 








i 由 由 分 分 析 ! 
优点 : 降低 数据 的 复杂 性 ， 识 别 最 重要 的 多 个 特征 。 
缺点 ; 不 一 定 需要 ， 且 可 能 损失 有 用 信息 。 ， 


适用 数据 类 型 ; 数值 型 数据 。 


首先 我 们 讨论 PCA 缘 后 的 一 些 理论 知识 ， 然 后 介绍 如 何 通 过 Python 的 NumPy 来 实现 PCA。 
13.2.1 移动 坐标 轴 


考虑 一 下 图 13-1 中 的 大 量 数据 点 。 如 果 要 求 我 们 画 出 一 条 直线 , 这 条 线 要 尽 可 能 覆盖 这 些 点 ， 
那么 最 长 的 线 可 能 是 哪 条 ? 我 做 过 多 次 尝试 。 在 图 13-1 中 ,3 条 直线 中 B 最 长 。 在 PCA 中 ,我们 对 
数据 的 坐标 进行 了 旋转 ,该 旋转 的 过 程 取决 于 数据 的 本 身 。 第 一 条 坐标 轴 旋 转 到 覆盖 数据 的 最 大 
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方差 位 置 ， 即 图 中 的 直线 B。 数 据 的 最 大 方差 给 出 了 数据 的 最 重要 的 信息 。 

在 选择 了 和 覆盖 数据 最 大 差异 性 的 坐标 轴 之 后 ， 我 们 选择 了 第 二 条 坐标 轴 。 假 如 该 坐标 轴 与 第 
一 条 坐标 轴 垂 直 , 它 就 是 覆盖 数据 次 大 差异 性 的 坐标 轴 。 这 里 更 严谨 的 说 法 就 是 正 交 (orthogonal )。 
当然 ， 在 二 维 平面 下 ， 垂 直 和 正 交 是 一 回 事 。 在 图 13-1 中 ， 直 线 C 就 是 第 二 条 坐标 轴 。 利 用 PCA， 


我 们 将 数据 坐标 轴 旋 转 至 数据 角度 上 的 那些 最 重要 的 方向 。 











0 3 4 
图 13-1 覆盖 整个 数据 集 的 三 条 直线 ， 其 中 直线 B 最 长 ， 并 给 出 了 数据 集中 差异 化 最 大 的 方向 


我 们 已 经 实现 了 坐标 轴 的 旋转 , 接 下 来 开始 讨论 降 维 。 坐 标 轴 的 旋转 并 没有 减少 数据 的 维度 。 
考虑 图 13-2， 其 中 包含 着 3 个 不 同 的 类 别 。 要 区 分 这 3 个 类 别 ， 可 以 使 用 决策 树 。 我 们 还 记得 决策 
树 每 次 都 是 基于 一 个 特征 来 做 决策 的 。 我 们 会 发 现 ， 在 x 轴 上 可 以 找到 一 些 值 ， 这 些 值 能 够 很 好 “ 
地 将 这 3 个 类 别 分 开 。 这 样 ， 我 们 就 可 能 得 到 一 些 规则 ， 比 如 当 (x<4) 时 ， 数 据 属 于 类 别 0。 如 果 
使 用 SVM 这 样 稍微 复杂 一 点 的 分 类 器 ， 我 们 就 会 得 到 更 好 的 分 类 面 和 分 类 规则 ， 比 如 当 (wOxx + 
wl*y + b) > 0 时 ， 数据 也 属于 类 别 0。SVM 可 能 比 决策 树 得 到 更 好 的 分 类 间隔 ， 但 是 分 类 超 平 
面 却 很 难 解释 。 

通过 PCA 进 行 降 维 处 理 , 我 们 就 可 以 同时 获得 SVM 和 决策 树 的 优点 ; 一 方面 ,得 到 了 和 决策 
树 一 样 简 单 的 分 类 器 ， 同 时 分 类 间隔 和 SVM 一 样 好 。 考 察 图 13-2 中 下 面 的 图 ， 其 中 的 数据 来 自 于 
上 面 的 图 并 经 PCA 转 换 之 后 绘制 而 成 的 。 如 果 仅 使 用 原始 数据 , 那么 这 里 的 间隔 会 比 决策 树 的 间 
隔 更 大 。 另外 ,由 于 只 需要 考虑 一 维 信息 ， 因 此 数据 就 可 以 通过 比 SVM 简 单 得 多 的 很 容易 采用 的 
规则 进行 区 分 。 
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图 13-2 二 维 空 间 的 3 个 类 别 。 当 在 该 数据 集 上 应 用 PCA 时 ， 就 可 以 去 掉 一 维 ， 从 而 使 得 该 
分 类 问题 变 得 更 容易 处 理 


在 图 13-2 中 ， 我 们 只 需要 一 维 信息 即 可 ， 因 为 另 一 维 信息 只 是 对 分 类 缺乏 贡献 的 噪声 数据 。 
在 二 维 平 面 下 ， 这 一 点 看 上 去 微不足道 ， 但 是 如 果 在 高 维 空间 下 则 意义 重大 。 

我 们 已 经 对 PCA 的 基本 过 程 做 出 了 简单 的 阐述 ， 接 下 来 就 可 以 通过 代码 来 实现 PCA 过 程 。 前 
面 我 曾 提 到 的 第 一 个 主 成 分 就 是 从 数据 差异 性 最 大 〈 即 方差 最 大 ) 的 方向 提取 出 来 的 , 第 二 个 主 
成 分 则 来 自 于 数据 差异 性 次 大 的 方向 ,并 且 该 方向 与 第 一 个 主 成 分 方向 正 交 。 通 过 数据 集 的 协 方 
差 矩 阵 及 其 特征 值 分 析 ， 我 们 就 可 以 求 得 这 些 主 成 分 的 值 。 

一 且 得 到 了 协 方差 矩阵 的 特征 向 量 ， 我 们 就 可 以 保留 最 大 的 N 个 值 。 这 些 特征 向 量 也 给 出 了 
AN 个 最 重要 特征 的 真实 结构 。 我 们 可 以 通过 将 数据 乘 上 这 WN 个 特征 向 量 而 将 它 转换 到 新 的 空间 。 










特征 值 分 析 是 线性 代数 中 的 一 个 领域 ， 它 能 够 通过 数据 的 一 般 格式 来 揭示 数据 的 “真实 " 


; 结构 ， 即 我 们 常 说 的 特征 向 量 和 特征 值 。 在 等 式 Av = Nv 中 ,，v 是 特征 向 量 ， 和 是 特征 值 。 特 
征 值 都 是 简单 的 标量 值 ， 因 此 Av = Nv 代表 的 是 : 如 果 特 征 向 量 v 被 某 个 矩阵 R 左 乘 ， 那 么 它 就 
等 于 某 个 标量 和 乘 以 v。 幸 运 的 是 ，NumPy 中 有 寻找 特征 向 量 和 特征 值 的 模块 1inalg， 它 有 
“elig() 方 法 ， 该 方法 用 于 求解 特征 向 量 和 特征 值 。 
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在 NumPy 中 实现 PCA 


将 数据 转换 成 前 N 个 主 成 分 的 伪 码 大 致 如 下 : 
去 除 平均 值 

计算 协 方 差 矩 阵 

计算 协 方差 矩阵 的 特征 值 和 特征 向 量 


将 特征 值 从 大 到 小 排序 

保留 最 上 面 的 N 个 特征 向 量 

将 数据 转换 到 上 述 M 个 特征 向 量 构建 的 新 空间 中 

建立 一 个 名 为 pca.py 的 文件 并 将 下 列 代码 加 入 用 于 计算 PCA。 
程序 清单 13-1 . PCA 算 法 


from numpy import * 


def 


loadDataset (fileName, delim='\t'): 

fr = open (fileName) 

stringArr = [line.strip() .split (delim) for line in fr.readlines()] 
datArr = {map (float,line) for line in stringaArr] 

return mat (datArr) 


pca{ldataMat, topNfeat=9999999): 

meanVals = mean(dataMat, axis=0) .9 去 平均 值 
meanRemoved = dataMat - meanVals 

covMat = cov{meanRemoved, rowvar=0) 

eigVvals,eigVects = linalg.eig(mat {covMat)) ! 

eigValInq = argsort (eigVals) 从 小 到 大 对 N 个 值 排序 
eigvalInd = eligValInd[:- (topNfeat+1):-1] 

redEigqVvects = eigVects{:,eigvalIind] A 

lowDDataMat = meanRemoved * redEigVvects 


reconMat = (lowDDataMat * redEigVects.T) + meanVals 8 将 数据 转换 到 新 空间 


return lowDDataMat, reconMat 


程序 清单 13-1 中 的 代码 包含 了 通常 的 NumPy 导 入 和 1loadqpataset () 函数 。 这 里 的 1oaq- 
pataSet () 函数 和 前 面 章节 中 的 版 本 有 所 不 同 , 因为 这 里 使 用 了 两 个 list comprehension 来 构建 矩阵 。 
.pca() 函数 有 两 个 参数 : 第 一 个 参数 是 用 于 进行 PCA 操 作 的 数据 集 ， 第 二 个 参数 topNfeat 
则 是 一 个 可 选 参数 , 即 应 用 的 N 个 特征 。 如 果 不 指定 topNfeat 的 值 ,那么 函数 就 会 返回 前 9 999 999 


个 特征 ， 


或 者 原始 数据 中 全 部 的 特征 。 


首先 计算 并 减 去 原始 数据 集 的 平均 值 @。 然 后 ， 计 算 协 方差 矩阵 及 其 特征 值 ， 接 着 利用 
argsort() 函数 对 特征 值 进行 从 小 到 大 的 排序 。 根 据 特征 值 排序 结果 的 逆序 就 可 以 得 到 
topNfeat 个 最 大 的 特征 向 量 傅 。 这 些 特 征 向 量 将 构成 后 面 对 数 据 进行 转换 的 矩阵 ， 该 矩阵 则 利 
用 wN 个 特征 将 原始 数据 转换 到 新 空间 中 个 。 最 后 ， 原 始 数据 被 重 构 后 返回 用 于 调试 ， 同 时 降 维 之 
后 的 数据 集 也 被 返回 了 。 

一 切 都 看 上 去 不 错 , 是 不 是 ? 在 进入 规模 更 大 的 例子 之 前 , 我 们 先 看 看 上 面 代码 的 运行 效果 
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以 确保 其 结果 正确 无 误 。 
>>> import pca 


我 们 在 testSet.txt 文 件 中 加 入 一 个 由 1000 个 数据 点 组 成 的 数据 集 , 并 通过 如 下 命令 将 该 数据 集 
调和 人 内存 : 

>>> dataMat = pca.loadDataSet ('testSet .txt') 
于 是 ,我 们 就 可 以 在 该 数据 集 上 进行 PCA 操 作 ， 


>>> lowDMat, reconMat = pca.pca(dataMat, 1) 


lowDMat 包 含 了 降 维 之 后 的 矩阵 ， 这 里 是 个 一 维 矩阵 ， 我 们 通过 如 下 命令 进行 检查 ; 


>>> 9hape (lowDMat) 
(1000, 1) 


我 们 可 以 通过 如 下 命令 将 降 维 后 的 数据 和 原始 数据 一 起 绘制 出 来 : 


>>> import matplotlib 

>>>import matplotilib.pyplot as plt 

fig = plt.figure{) 

ax = fig.add subplot (111) 

>>> ax.scatter (dataMat [:,0] .flatten() .A[0], dataMat[:,1] .flatten().A[0], 
marker='^', s=90) 

<matplotiib.collections.PathCollection object at 0x029B5C50> 

>>> ax.Scatter(reconMat [:,0] .Elatten().Ar[0] ，reconMat [:,1].Elatten().A[0]， 
marker='o', 8=50, c='red') 

<matplotlib.collections.PathCollection object at 0X0372RA210>P]t ,show () 


我 们 应 该 会 看 到 和 图 13-3 类 似 的 结果 。 使 用 如 下 命令 来 蔡 换 原来 的 PCA 调 用 ， 并 重复 上 述 过 程 : 

>>> lowDMat, reconMat = pca.pcaldataMat, 2) 

既然 没有 剔除 任何 特征 ,那么 重 构 之 后 的 数据 会 和 原始 的 数据 重合 。 我 们 也 会 看 到 和 图 13-3 
类 似 的 结果 〈 不 包含 图 13-3 中 的 直线 )。 





6 一 一 一 一 一 一 一 
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13.3 示例: 利用 PCA 对 半导体 制造 数据 降 维 


半导体 是 在 一 些 极为 先进 的 工厂 中 制造 出 来 的 。 工厂 或 制造 设备 不 仅 需 要 花费 上 亿美 元 , 而 
且 还 需要 大 量 的 工人 。 制 造 设备 仅 能 在 几 年 内 保持 其 先进 性 ， 随 后 就 必须 更 换 了 。 单 个 集成 电路 
的 加 工时 间 会 超过 一 个 月 。 在 设备 生命 期 有 限 , 花费 又 极其 巨大 的 情况 下 ， 制 造 过 程 中 的 每 一 秒 
钟 都 价值 巨大 。 如 果 制 造 过 程 中 存在 瑕 症 ， 我们 就 必须 尽早 发 现 ， 从 而 确保 宝贵 的 时 间 不 会 花费 
在 缺陷 产品 的 生产 上 。 

一 些 工 程 上 的 通用 解决 方案 是 通过 早期 测试 和 频繁 测试 来 发 现 有 缺陷 的 产品 , 但 仍然 有 一 些 
存在 瑕 症 的 产品 通过 了 测试 。 如 果 机 器 学 习 技术 能 够 用 于 进一步 减少 错误 , 那么 它 就 会 为 制造 商 
节省 大 量 的 资金 。 

接 下 来 我 们 将 考察 面向 上 述 任务 中 的 数据 集 ， 而 它 也 比 前 面 使 用 的 数据 集 更 大 , 并 且 包 含 了 
许多 特征 。 具 体 地 讲 ， 它 拥有 590 个 特征 ?。 我 们 看 看 能 和 否 对 这 些 特征 进行 降 维 处 理 。 读 者 也 可 以 
通过 http://archive.ics.uci.edu/ml/machine-learning-databases/secony 得 到 该 数据 集 。 

该 数据 包含 很 多 的 缺失 值 。 这 些 缺失 值 是 以 NaN (Not a Number 的 缩写 ) 标识 的 。 对 于 这 些 
缺失 信 ， 我 们 有 一 些 处 理 办 法 (参考 第 5 章 )。 在 590 个 特征 下 ， 几 乎 所 有 样本 都 有 NaN， 因 此 去 
除 不 完整 的 样本 不 太 现 实 。 尽 管 我 们 可 以 将 所 有 的 NaN 和 替换 成 0， 但 是 由 于 并 不 知道 这 些 值 的 意 
义 ， 所 以 这 样 做 是 个 下 策 。 如 果 它 们 是 开 氏 温度 ， 那 么 将 它们 置 成 0 这 种 处 理 策 咯 就 太 差劲 了 。 
下 面 我 们 用 平均 值 来 代替 缺失 值 ， 平 均值 根据 那些 非 NaN 得 到 。 

将 下 列 代码 添加 到 pca.py 文 件 中 。 


程序 清单 13-2 ”将 NaN 蔡 换 成 平均 值 的 函数 
def replaceNanWithMean{(): 


datMat = loadDataSet ('secom.data', ' ') ga | 


numFeat = shape (datMat) [1] 
for i in range (numFeat): 
meanVal = mean(datMat [nonzero(~isnan (datMat [:,i] .A)) [0],i]) 


datMat [nonzero (isnan (datMat [:,i] .A)) [0] ,ij = meanVal 
return datMat 将 所 有 NaN 秆 为 平均 位 入 
| 上 述 代 码 首 先 打 开 了 数据 集 并 计算 出 了 其 特征 的 数目 , 然后 再 在 所 有 的 特征 上 进行 循环 。 对 
| 于 每 个 特征 ， 首 先 计算 出 那些 非 NaN 值 的 平均 值 @。 然 后 ,将 所 有 NaN 蔡 换 为 该 平均 值 @。 
我 们 已 经 去 除了 所 有 NaN， 接 下 来 考虑 在 该 数据 集 上 应 用 PCA。 首 先 确认 所 需 特征 和 可 以 去 


除 特征 的 数目 。PCA 会 给 出 数据 中 所 包含 的 信息 量 。 需 要 特别 强调 的 是 ， 数 据 〈 data ) 和 信息 
(information ) 之 间 具 有 巨大 的 差别 。 数 据 指 的 是 接受 的 原始 材料 ， 其 中 可 能 包含 噪声 和 不 相关 





中 SECOM Data Set retrieved from the UCI Machine Learning Repository: http://archive.ics.uci.edu/ml/datasets/SECOM on 
June 1, 2011. 
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信息 。 信 息 是 指数 据 中 的 相关 部 分 。 这 些 并 非 只 是 抽象 概念 ,我 们 还 可 以 定量 地 计算 数据 中 所 包 
含 的 信息 并 决定 保留 的 比例 。 
下 面 看 看 该 如 何 实现 这 一 点 。 首 先 ， 利 用 程序 清单 13-2 中 的 代码 将 数据 集中 所 有 的 NaN 蔡 换 
成 平均 值 : 
dataMat = pca.replaceNanWithMean () 
接 下 来 从 pca () 函数 中 借用 一 些 代码 来 达到 我 们 的 目的 ， 之 所 以 借用 是 因为 我 们 起 了 解 中 加 
结果 而 非 最 后 输出 结果 。 首 先 调用 如 下 语句 去 除 均值 ; 


meanVals = mean(dataMat, axis=0) 
meanRemoved = dataMat - meanVals 


然后 计算 协 方差 矩阵 ; 


covMat = cov{(meanRemoved, rowvar=0) 


最 后 对 该 矩阵 进行 特征 值 分 析 :; 
eigVals,eigVects = linalg.eig(mat (covMat)) 


现在 ， 我 们 可 以 观察 一 下 特征 值 的 结果 


>>> eigVals 
array([ 5.34151979e+07， 2.17466719e+07， 8.24837662e+06, 
2.07388086e+06， 1.31540439e+06， 4.67693557e+05, 
2.90863555e+05, 2.83668601e+05， 2.37155830e+05, 
2.08513836e+05, 1.96098849e+05, 1.86856549e+05, 


00000000e+00, 0.00000000e+00， 


0.00000000e+00， 0 . 

0.00000000e+00， 0.00000000e+00， 0.00000000e+00， 
0.00000000et+00， 0.00000000e+00， 0.00000000e+00， 
0.00000000e+00， 0.00000000e+00， 0.00000000e+00， 
0.00000000e+00， 0.00000000e+00]) 


我 们 会 看 到 一 大 堆 值 ,但 是 其 中 的 什么 会 引起 我 们 的 注意 ? 我 们 会 发 现 其 中 很 多 值 都 是 0 
吗 ? 实际 上 ， 其 中 有 超过 20% 的 特征 值 都 是 9。 这 就 意味 着 这 些 特 征 都 是 其 他 特征 的 副本 ， 也 就 
是 说 ， 它 们 可 以 通过 其 他 特征 来 表示 ， 而 本 身 并 没有 提供 人 额外 的 信息 。 

接 下 来 ,我 们 了 解 一 下 部 分 数值 的 数量 级 。 最 前 面 15 个 值 的 数量 级 大 于 105， 实际 上 那 以 
后 的 值 都 变 得 非常 小 。 这 就 相当 于 告诉 我 们 只 有 部 分 重要 特征 ， 重 要 特征 的 数目 也 很 快 就 会 
下 降 。 

最 后 ,我 们 可 能 会 注意 到 有 一 些小 的 负 值 ， 它 们 主要 源 自 数值 误差 应 该 四 舍 五 人 成 0。 

在 图 13-4 中 已 经 给 出 了 总 方差 的 百分比 ， 我 们 发 现 ， 在 开始 几 个 主 成 分 之 后 ， 方 差 就 会 迅 
速 下 降 。 
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图 13-4 ”前 20 个 主 成 分 占 总 方差 的 百分比 。 可 以 看 出 ， 大 部 分 方差 都 包含 在 前 面 的 几 个 主 成 
分 中 ,舍弃 后 面 的 主 成 分 并 不 会 损失 太 多 的 信息 。 如 果 保 留 前 6 个 主 成 分 ， 则 数据 集 
可 以 从 590 个 特征 约 简 成 6 个 特征 ， 大 概 实现 了 100 : 1 的 压缩 


表 13-1 给 出 了 这 些 主 成 分 所 对 应 的 方差 百分比 和 累积 方差 百分比 。 浏 览 “累积 方 差 百 分 比 
(%》 这 一 列 就 会 注意 到 ,前 六 个 主 成 分 就 覆盖 了 数据 96.8% 的 方差 ,而 前 20 个 主 成 分 覆盖 了 99.3% 
的 方差 。 这 就 表明 了 ,如果 保留 前 6 个 而 去 除 后 584 个 主 成 分 , 我 们 就 可 以 实现 大 概 100 : 1 的 压缩 
比 。 另 外 ， 由 于 合 弃 了 噪声 的 主 成 分 ， 将 后 面 的 主 成 分 去 除 便 使 得 数据 更 加 干净 。 
表 13-1 半导体 数据 中 前 7 个 主 成 分 所 占 的 方差 百分比 


主 成 分 方差 百分比 〈%) 累积 方差 百分比 《〈%) 
1 59.2 59.2 
2 24.1 83.4 
3 9.2 92.5 
4 2.3 ”94.8 
5 1.5 96.3 
6 0.5 96.8 
7 0.3 97.1 
20 0.08 99.3 


于 是 , 我 们 可 以 知道 在 数据 集 的 前 面 多 个 主 成 分 中 所 包含 的 信息 量 。 我 们 可 以 尝试 不 同 的 截 
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断 值 来 检验 它们 的 性 能 。 有 些 人 使 用 能 包含 90% 信 息 量 的 主 成 分 数量 ， 而 其 他 人 使 用 前 20 个 主 成 
分 。 我 们 无 法 精确 知道 所 需要 的 主 成 分 数目 ， 必 须 通过 在 实验 中 取 不 同 的 值 来 确定 。 有 效 的 主 成 
分 数目 则 取决 于 数据 集 和 具体 应 用 。 

上 述 分 析 能 够 得 到 所 用 到 的 主 成 分 数目 ,然后 我 们 可 以 将 该 数目 输入 到 PCA 算 法 中 ,最 后 得 
到 约 简 后 数据 就 可 以 在 分 类 器 中 使 用 了 。 


13.4“ 本章 小 结 


降 维 技术 使 得 数据 变 得 更 易 使 用 , 并 且 它 们 往往 能 够 去 除数 据 中 的 噪声 ,使 得 其 他 机 器 学 习 
任务 更 加 精确 。 降 维 往往 作为 预 处 理 步骤 ,在 数据 应 用 到 其 他 算法 之 前 清洗 数据 。 有 很 多 技术 可 
以 用 于 数据 降 维 ， 在 这 些 技术 中 ,独立 成 分 分 析 、 因 子 分 析 和 主 成 分 分 析 比 较 流行 ， 其 中 又 以 主 
成 分 分 析 应 用 最 广泛 。 

PCA 可 以 从 数据 中 识别 其 主要 特征 ， 它 是 通过 沿 着 数据 最 大 方差 方向 旋转 坐标 轴 来 实现 的 。 
选择 方差 最 大 的 方向 作为 第 一 条 坐标 轴 , 后 续 坐 标 轴 则 与 前 面 的 坐标 轴 正 交 。 协 方差 矩阵 上 的 特 
征 值 分 析 可 以 用 一 系列 的 正 交 坐标 轴 来 获取 。 

本 章 中 的 PCA 将 所 有 的 数据 集 都 调 入 了 内 存 ， 如 果 无 法 做 到 ,就 需要 其 他 的 方法 来 寻找 其 特 
征 值 。 如 果 使 用 在 线 PCA 分 析 的 方法 ， 你 可 以 参考 一 篇 优秀 的 论文 “Incremental Bigenanalysis for 
Classification” 9?。 下 一 章 要 讨论 的 奇异 值 分 解 方法 也 可 以 用 于 特征 值 分 析 。 





@ P Hall, D. Marshall, and R. Martin, “Incremental Eigenanalysis for Classification,” Department of Computer Science， 
Cardiff University, 1998 British Machine Vision Conference, vol. 1, 286-95; http:// citeseer.ist.psu.edu/viewdoc/ 
summary?doi=10.1.1.40.4801. | 
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-本章 内 容 
口 SVD 和 矩阵 分 解 
OD 推荐 引擎 
口 利用 SVD 提 升 推荐 引擎 的 性 能 


餐馆 可 划分 为 很 多 类 别 ， 比 如 美式 、 中 式 、 日 式 、 牛 排 馆 、 素 食 店 ， 等 等 。 你 是 否 想 过 这 些 
类 别 够 用 吗 ? 或 许 人 们 喜欢 这 些 的 混合 类 别 ， 或 者 类 做 中 式 素 食 店 那样 的 子 类 别 。 如 何 才 能 知道 
到 底 有 多 少 类 和 餐馆 呢 ? 我 们 也 许可 以 问 问 专 家 ? 但 是 倘若 某 个 专家 说 应 该 按照 调料 分 类 , 而 另 一 
个 专家 则 认为 应 该 按照 配料 分 类 , 那 该 怎么 办 呢 ?9 忘 了 专家 ,我 们 还 是 从 数据 着 手 吧 。 我 们 可 以 
对 记录 用 户 关于 餐馆 观点 的 数据 进行 处 理 ， 并 且 从 中 提取 出 其 背后 的 因素 。 

这 些 因素 可 能 会 与 餐馆 的 类 别 、 豪 任 时 所 用 的 某 个 特定 配料 ， 或 其 他 任意 对 象 一 致 。 然 后 ， 
我 们 就 可 以 利用 这 些 因 素来 估计 人 们 对 没有 去 过 的 餐馆 的 看 法 。 

提取 这 些 信息 的 方法 称 为 奇异 值 分 解 (Singular Value Decomposition，SVD )。 从 生物 信息 学 
到 金融 学 等 在 内 的 很 多 应 用 中 ，SVD 都 是 提取 信息 的 强大 工具 。 

本 章 将 介绍 SVD 的 概念 及 其 能 够 进行 数据 约 简 的 原因 。 然 后 ， 我 们 将 会 介绍 基于 Python 的 
SVD 实 现 以 及 将 数据 映射 到 低 维 空间 的 过 程 。 再 接 下 来 , 我 们 就 将 学 习 推 荐 引擎 的 概念 和 它们 的 
实际 运行 过 程 。 为 了 提高 SVD 的 精度 , 我 们 将 会 把 其 应 用 到 推荐 系统 中 去 , 该 推荐 系统 将 会 帮助 
人 们 寻找 到 合适 的 餐馆 。 最后， 我 们 讲述 一 个 SVD 在 图 像 压 缩 中 的 应 用 例子 。 


14.1 ”SVD 的 应 用 





优点 : 简化 数据 ， 去 除 噪 声 ， 提 高 算法 的 结果 
缺点 ; 数据 的 转换 可 能 难以 理解。 
适用 数据 类 型 ， 数 值 型 数据 。 
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利用 SVD 实 现 , 我 们 能 够 用 小 得 多 的 数据 集 来 表示 原始 数据 集 。 这 样 做 , 实际 上 是 去 除了 品 
声 和 元 余 信 息 。 当 我 们 试图 节省 空间 时 ， 去 除 信息 就 是 很 崇高 的 目标 了 , 但 是 在 这 里 我 们 则 是 从 
数据 中 抽取 信息 。 基 于 这 个 视角 , 我 们 就 可 以 把 SVD 看 成 是 从 噪声 数据 中 抽取 相关 特征 。 如 果 这 
一 点 听 来 奇怪 ， 也 不 必 担 心 ， 我 们 后 面 会 给 出 若干 SVD 应 用 的 场景 和 方法 ,解释 它 的 威力 。 

首先 , 我 们 会 介绍 SVD 是 如 何 通 过 隐 性 语义 索引 应 用 于 搜索 和 信息 检索 领域 的 。 然 后 , 我 们 
再 介绍 SVD 在 推荐 系统 中 的 应 用 。 


14.1.1 隐 性 语义 索引 


SVD 的 历史 已 经 超过 上 百 个 年 头 , 但 是 最 近 几 十 年 随 着 计算 机 的 使 用 , 我 们 发 现 了 其 更 多 的 
使 用 价值 。 最 早 的 SVD 应 用 之 一 就 是 信息 检索 。 我 们 称 利用 SVD 的 方法 为 隐 性 语义 索引 (Latent 
Semantic Indexing，LSI ) 或 隐 性 语义 分 析 (Latent Semantic Analysis，LSA )。 

在 LSI 中 ， 一 个 矩阵 是 由 文档 和 词语 组 成 的 。 当 我 们 在 该 矩阵 上 应 用 SVD 时 ， 就 会 构建 出 多 
个 奇异 值 。 这 些 奇异 值 代 表 了 文档 中 的 概念 或 主题 ， 这 一 特点 可 以 用 于 更 高 效 的 文档 搜索 。 在 词 
语 拼写 错误 时 ， 只 基于 词语 存在 与 否 的 简单 搜索 方法 会 遇 到 问题 。 简 单 搜索 的 另 一 个 问题 就 是 同 
义 词 的 使 用 。 这 就 是 说 ， 当 我 们 查找 一 个 词 时 ， 其 同义词 所 在 的 文档 可 能 并 不 会 匹配 上 。 如 果 我 
们 从 上 于 篇 相似 的 文档 中 抽取 出 概念 ， 那 么 同义词 就 会 映射 为 同一 概念 。 


14.1.2 ”推荐 系统 


SVD 的 另 一 个 应 用 就 是 推荐 系统 。 简单 版 本 的 推荐 系统 能 够 计算 项 或 者 人 之 间 的 相似 度 。 更 
先进 的 方法 则 先 利 用 SVD 从 数据 中 构建 一 个 主题 空间 , 然后 再 在 该 空间 下 计算 其 相似 度 。 考虑 图 
14-1 中 给 出 的 矩阵 ， 它 是 由 餐馆 的 菜 和 品 菜 师 对 这 些 菜 的 意见 构成 的 。 品 菜 师 可 以 采用 1 到 5 之 间 
的 任意 一 个 整数 来 对 菜 评 级 。 如 果品 菜 师 没有 党 过 某 道 菜 ， 则 评级 为 0。 












日 
鲁 未 寿 烤 外 
但 鸡 司 牛 猪 
饭 排 饭 内 内 
Ed|0 0 0 2 2 i 
peter |0 0 0 3 3 区 
Tracy |0 0 0 1 1 人 
Fan |1 1 1 0 0 0 
Mng |2 2 2 0 0 0 
Pachi |5 5 5 0 0 0 4 | 
Jocelyn | 1 1 1 0 0 docelyn 0 | 


图 14-1 餐馆 的 菜 及 其 评级 的 数据 。 对 此 矩阵 进行 SVD 处 理 则 可 以 将 数据 压缩 到 若干 概念 中 去 。 | 
.在 右边 的 矩阵 当中 ， 标 出 了 一 个 概念 
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我 们 对 上 述 矩 阵 进 行 SVD 处 理 ， 会 得 到 两 个 奇异 值 (读者 如 果 不 信 可 以 自己 试 试 )。 因 此 ， 
就 会 仿佛 有 两 个 概念 或 主题 与 此 数据 集 相关 联 。 我 们 看 看 能 否 通 过 观察 图 中 的 0 来 找到 这 个 矩阵 
的 具体 概念 。 观 察 一 下 右 图 的 阴影 部 分 ， 看 起 来 Ed、Peter 和 Tracy 对 “ 烤 牛 肉 ” 和 “ 手 撕 猪肉 ” 
进行 了 评级 , 同时 这 三 人 未 对 其 他 菜 评级 。 烤 牛肉 和 手 撕 猪肉 都 是 美式 烧烤 餐馆 才 有 的 菜 ， 其 他 
菜 则 在 日 式 餐 馆 才 有 。 | 

我 们 可 以 把 奇异 值 想象 成 一 个 新 空间 。 与 图 14-1 中 的 矩阵 给 出 的 五 维 或 者 七 维 不 同 , 我 们 最 
终 的 矩阵 只 有 二 维 。 那 么 这 二 维 分 别 是 什么 呢 ? 它 们 能 告诉 我 们 数据 的 什么 信息 ?这 二 维 分 别 对 
应 图 中 给 出 的 两 个 组 , 右 图 中 已 经 标示 出 了 其 中 的 一 个 组 。 我 们 可 以 基于 每 个 组 的 共同 特征 来 命 
名 这 二 维 ， 比 如 我 们 得 到 的 美式 BBQ 和 日 式 食品 这 二 维 。 

如 何 才 能 将 原始 数据 变换 到 上 述 新 空间 中 呢 ? 下 一 节 我 们 将 会 进一步 详细 地 介绍 SVD, 届时 
将 会 了 解 到 SVD 是 如 何 得 到 g 和 ww 两 个 矩阵 的 。v 矩 阵 会 将 用 户 映 射 到 BBQ/ 日 式 食品 空间 去 。 类 
似 地 , ov 矩阵 会 将 餐馆 的 菜 映射 到 BBQ/ 日 式 食品 空间 去 。 真 实 的 数据 通常 不 会 像 图 14-1 中 的 矩阵 
那样 稠密 或 整齐 ， 这 里 如 此 只 是 为 了 便于 说 明 问 题 。 

推荐 引擎 中 可 能 会 有 噪声 数据 ， 比 如 某 个 人 对 某 些 荣 的 评级 就 可 能 存在 噪声 ,， 并且 推 荐 系统 
也 可 以 将 数据 抽取 为 这 些 基本 主题 。 基 于 这 些 主题 ， 推 荐 系统 就 能 取得 比 原始 数据 更 好 的 推荐 效 
果 。 在 2006 年 末 ， 电 影 公司 Netflix 曾 经 举办 了 一 个 奖金 为 100 万 美元 的 大 赛 ， 这 笔 奖 金 会 颁 给 比 
当时 最 好 系统 还 要 好 10% 的 推荐 系统 的 参赛 者 。 最 后 的 获奖 者 就 使 用 了 SVD?。 

下 一 节 将 介绍 SVD 的 一 些 背 景 材料 ， 接 着 给 出 利用 Python 的 NumPy 实 现 SVD 的 过 程 。 然 后 ， 
我 们 将 进一步 深入 讨论 推荐 引擎 。 当 对 推荐 引擎 有 相当 的 了 解 之 后 , 我 们 就 会 利用 SVD 构 建 一 个 

SVD 是 矩阵 分 解 的 一 种 类 型 ， 而 矩阵 分 解 是 将 数据 矩阵 分 解 为 多 个 独立 部 分 的 过 程 。 接 下 来 
我 们 首先 介绍 矩阵 分 解 。 


14.2 ”矩阵 分 解 


在 很 多 情况 下 ,数据 中 的 一 小 段 携带 了 数据 集中 的 大 部 分 信息 ， 其 他 信息 则 要 么 是 噪声 , 要 
么 就 是 毫 不 相关 的 信息 。 在 线性 代数 中 还 有 很 多 矩阵 分 解 技术 。 和 矩阵 分 解 可 以 将 原始 矩阵 表示 成 
新 的 易于 处 理 的 形式 ， 这 种 新 形式 是 两 个 或 多 个 矩阵 的 乘积 。 我 们 可 以 将 这 种 分 解 过 程 想象 成 代 
数 中 的 因子 分 解 。 如 何 将 12 分 解 成 两 个 数 的 乘积 ”(1,12)、(2,6) 和 (3,4) 都 是 合理 的 答案 。 

不 同 的 矩阵 分 解 技术 具有 不 同 的 性 质 , 其 中 有 些 更 适合 于 某 个 应 用 , 有 些 则 更 适合 于 其 他 应 
用 。 最 常见 的 一 种 矩阵 分 解 技 术 就 是 SVD。SVD 将 原始 的 数据 集 矩 阵 Data 分 解 成 三 个 矩阵 y、z 
和 w。 如 果 原 始 和 矩阵 pata 是 m 行 a 列 ， 那 么 g、2 和 人 就 分 别 是 m 行 m 列 、m 行 a 列 和 n 行 ao 列 。 为 了 
清晰 起 见 ， 上 述 过 程 可 以 写成 如 下 一 行 (下 标 为 矩阵 维 数 ); 





D Yehuda Koren, “The BellKor Solution to the Netflix Grand Prize,” August 2009; http://www. netflixprize.com/assets/ 
GrandPrize2009_BPC_BellKor.pdf. | 
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T 
Dataw Ug 2 V HX 


上 述 分 解 中 会 构建 出 一 个 矩阵 5， 该 矩阵 只 有 对 角 元 素 ， 其 他 元 素 均 为 0。 另 一 个 惯例 就 是 ， 
z 的 对 角 元 素 是 从 大 到 小 排列 的 。 这 些 对 角 元 素 称 为 奇异 值 ( Singular Value )， 它们 对 应 了 原始 数 
” 据 集 矩 阵 Data 的 奇异 值 。 回 想 上 一 章 的 PCA， 我 们 得 到 的 是 矩阵 的 特征 值 ， 它 们 告诉 我 们 数据 
集中 的 重要 特征 。z 中 的 奇异 值 也 是 如 此 。 奇 异 值 和 特征 值 是 有 关系 的 。 这 里 的 奇异 值 就 是 矩阵 
Data * Data’" 特 征 值 的 平方 根 。 

前 面 提 到 过 ， 和 矩阵 zs 只 有 从 大 到 小 排列 的 对 角 元 素 。 在 科学 和 工程 中 ， 一 直 存 在 这 样 一 个 普 
遍 事 实 : 在 某 个 奇异 值 的 数目 (z 个 ) 之 后 ， 其 他 的 奇异 值 都 置 为 0%。 这 就 意味 着 数据 集中 仅 有 r 
个 重要 特征 ， 而 其 余 特 征 则 都 是 噪声 或 元 余 特 征 。 在 下 一 节 中 ， 我 们 将 看 到 一 个 可 靠 的 案例 。 

我 们 不 必 担 心 该 如 何 进行 矩阵 分 解 。 在 下 一 节 中 就 会 提 到 , 在 NumPy 线 性 代数 库 中 有 一 个 实 
现 SVD 的 方法 。 如 果 读 者 对 SVD 的 编程 实现 感 兴 趣 的 话 ， 请 阅读 Numerical Linear Algebra?。 


14.3 ”利用 Python 实现 SVD 


如 果 SVD 确 实 那么 好 ,那么 该 如 何 实现 它 呢 ?SVD 实 现 了 相关 的 线性 代数 , 但 这 并 不 在 本 书 
的 讨论 范围 之 内 。 其 实 ， 有 很 多 软件 包 可 以 实现 SVD。NumPy 有 一 个 称 为 linalg 的 线性 代数 工具 
箱 。 接 下 来 ,我 们 了 解 一 下 如 何 利用 该 工具 箱 实现 如 下 和 矩阵 的 SVD 处 理 : 


11 
17 
要 在 Python 上 实现 该 矩阵 的 SVD 处 理 ， 请 键入 如 下 命令 : 


>>> from numpy import * 

>>> U,Sigma,VT=linalg.svd([{1, 1],[7, 7]]) 
接 下 来 就 可 以 在 如 下 多 个 矩阵 上 进行 尝试 

>>> U 

array ([[-0.14142136, -0.98994949]， 


[-0.98994949, 0.14142136]1) 
>>> Sigma 


array([ 10., 0.]) 
ys VT 
array ([[-0.70710678, -0.70710678], 


[-0.70710678, 0.70710678]1])} 


我 们 注意 到 ， 和 矩阵 Sigma 以 行 向 量 array([ 10.，0.]) 返 回 ， 而 非 如 下 矩阵 ; 


array([[ 10., 0.]， 
[0., 0.]]). 


由 于 和 矩阵 除了 对 角 元 素 其 他 均 为 0， 因 此 这 种 仅 返 回 对 角 元 素 的 方式 能 够 节省 空间 ， 这 就 是 
由 NumPy 的 内 部 机 制 产 生 的 。 我 们 所 要 记 住 的 是 , 一 旦 看 到 sigma 就 要 知道 它 是 一 个 矩阵 。 好 了 ， 
接 下 来 我 们 将 在 一 个 更 大 的 数据 集 上 进行 更 多 的 分 解 。 











D L. Trefethen and D. Bau III, Numerical Linear Algebra (SIAM: Society for Industrial and Applied Mathematics, 1997). 
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建立 一 个 新 文件 svdRec.py 并 加 入 如 下 代码 ; 


def loadExData(): 


return{{[1, 1, 1, 0, 0] 

[2 Ds 00] 

-[1, 1, 1, 0, 0] 

[5, 5, 5, 0, '0] 

[1, 1, 0, 2, 2] 

| [0, 0, 0, 3, 3] 
{0, 0, 0, 1, 1]] 

接 下 来 我 们 对 该 矩阵 进行 SVD 分 解 。 在 保存 好 文件 svdRec.py 之 后 ， 我 们 在 Python 提示 符 下 


>>> import svdRec 

>>> Data=svdRec.1loadExData () 

>>> U,Sigma,VT=linalg.svdal(Data) 

>>> Sigma 

array([ 9.72140007e+00, 5.29397912e+00， 6.84226362e-01， 
7.16251492e-16, 4.85169600e-32]) 


前 3 个 数值 比 其 他 的 值 大 了 很 多 ( 如 果 你 的 最 后 两 个 值 的 结果 与 这 里 的 结果 稍 有 不 同 ， 也 不 
必 担 心 。 它 们 太 小 了 , 所 以 在 不 同 机 器 上 产生 的 结果 就 可 能 会 稍 有 不 同 ， 但 是 数量 级 应 该 和 这 里 
的 结果 差不多 )。 于 是 ,我们 就 可 以 将 最 后 两 个 值 去 掉 了 。 

接 下 来 ,我们 的 原始 数据 集 就 可 以 用 如 下 结果 来 近似 : 


Dataw, ~ Uiwa Za Vs 
图 14-2 就 是 上 述 近 似 计算 的 一 个 示意 图 。 





Data 


图 14-2”SVD 的 示意 图 。 和 矩阵 Data 被 分 解 。 浅 灰色 区 域 是 原始 数据 ， 深 灰色 区 域 是 矩阵 近 
似 计算 仅 需 要 的 数据 


我 们 试图 重 构 原始 矩阵 。 首 先 构 建 一 个 3x3 的 矩阵 sig3; 

>>> Sig3=mat ([[Sigma[0], 0, 0], [0, Sigma{[1], 0], [0, 0, Sigma [2]})]) 

接 下 来 我 们 重 构 一 个 原始 矩阵 的 近似 和 矩阵。 由 于 sig2 仅 为 2x2 的 矩阵 ， 因 而 我 们 只 需 使 用 和 矩 
阵 Ug 的 前 两 列 和 到 的 前 两 行 。 为 了 在 Python 中 实现 这 一 点 ， 输 入 如 下 命令 : 
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>>> U[:, :3] *Sig3*VT{:3,:] 
array([[ 1., 1., 1., 0 0.]， 
[ Zep 2 0 -05 
[1 了 
[ 5.， Sos Ss 0 0.]， 
| i 各， 没 2.5] 
[ 0.， 0., -0., 3 Bl)s 
[ 0. 0., -0. Li Ll 


我 们 是 如 何 知道 仅 需 保留 前 3 个 奇异 值 的 呢 ? 确定 要 保留 的 奇异 值 的 数目 有 很 多 启发 式 的 策 
咯 ， 其 中 一 个 典型 的 做 法 就 是 保留 矩阵 中 90% 的 能 量 信息 。 为 了 计算 总 能 量 信 息 ,我 们 将 所 有 的 
奇异 值 求 其 平方 和 。 于 是 可 以 将 奇异 值 的 平方 和 累加 到 总 值 的 90% 为 止 。 另 一 个 启发 式 策略 就 是 ， 
当 和 矩阵 上 有 上 万 的 奇异 值 时 ， 那 么 就 保留 前 面 的 2000 或 3000 个 。 尽 管 后 一 种 方法 不 太 优雅 ,但 是 
在 实际 中 更 容易 实施 。 之 所 以 说 它 不 够 优雅 ， 就 是 因为 在 任何 数据 集 上 都 不 能 保证 前 3000 个 奇异 
值 就 能 够 包含 90% 的 能 量 信息 。 但 在 通常 情况 下 ， 使 用 者 往往 都 对 数据 有 足够 的 了 解 ， 从 而 就 能 
够 做 出 类 似 的 假设 了 。 

现在 我 们 已 经 通过 三 个 矩阵 对 原始 矩阵 进行 了 近似 。 我 们 可 以 用 一 个 小 很 多 的 矩阵 来 表示 一 
个 大 和 矩阵。 有 很 多 应 用 可 以 通过 SVD 来 提升 性 能 。 下 面 我 们 将 讨论 一 个 比较 流行 的 SVD 应 用 的 例 
子 一 一 推荐 引擎 。 


14.4 ”基于 协同 过 滤 的 推荐 引擎 


近 十 年 来 ， 推 荐 引擎 对 因特网 用 户 而 言 已 经 不 是 什么 新 鲜 事 物 了 。Amazon 会 根据 顾客 的 购 
买 历史 向 他 们 推荐 物品 ，Netflix 会 向 其 用 户 推荐 电影 ， 新 闻 网 站 会 对 用 户 推荐 新 闻 报道 ， 这 样 的 
例子 还 有 很 多 很 多 。 当 然 ， 有 很 多 方法 可 以 实现 推荐 功能 ， 这 里 我 们 只 使 用 一 种 称 为 协同 过 滤 
(collaborative filtering ) 的 方法 。 协 同 过 滤 是 通过 将 用 户 和 其 他 用 户 的 数据 进行 对 比 来 实现 推 
荐 的 。 

这 里 的 数据 是 从 概念 上 组 织 成 了 类 似 图 14-2 所 给 出 的 矩阵 形式 。 当 数据 采用 这 种 方式 进行 组 
织 时 , 我 们 就 可 以 比较 用 户 或 物品 之 间 的 相似 度 了 。 这 两 种 做 法 都 会 使 用 我 们 很 快 就 介绍 到 的 相 
似 度 的 概念 。 当 知道 了 两 个 用 户 或 两 个 物品 之 间 的 相似 度 , 我 们 就 可 以 利用 已 有 的 数据 来 预测 未 
知 的 用 户 吝 好 。 例如 ,我们 试图 对 某 个 用 户 喜 欢 的 电影 进行 预测 ,推荐 引擎 会 发 现 有 一 部 电影 该 
用 户 还 没 看 过 。 然 后 ， 它 就 会 计算 该 电影 和 用 户 看 过 的 电影 之 间 的 相似 度 ， 如 果 其 相似 度 很 高 ， 
推荐 算法 就 会 认为 用 户 喜 欢 这 部 电影 。 

在 上 述 场景 下 , 唯一 所 需要 的 数学 方法 就 是 相似 度 的 计算 ,这 并 不 是 很 难 。 接 下 来 ,我 们 首 
先 讨论 物品 之 间 的 相似 度 计算 ， 然后 讨论 在 基于 物品 和 基于 用 户 的 相似 度 计算 之 间 的 折 中 。 最 后 ， 
我 们 介绍 推荐 引擎 成 功 的 度量 方法 。 


14.4.1 ”相似 度 计算 


我 们 希望 拥有 一 些 物品 之 间 相 似 度 的 定量 方法 。 那 么 如 何 找 出 这 些 方法 呢 ? 倘若 我 们 面 对 的 
是 食品 销售 网 站 ， 该 如 何 处 理 ? 或 许可 以 根据 食品 的 配料 、 热 量 、 某 个 豪 调 类 型 的 定义 或 者 其 他 
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类 似 的 信息 进行 相似 度 的 计算 。 现在, 假设 该 网 站 想 把 业务 拓展 到 餐具 行业 , 那么 会 用 热量 来 描 
述 一 个 叉子 吗 ? 问题 的 关键 就 在 于 用 于 描述 食品 的 属性 和 描述 餐具 的 属性 有 所 不 同 ,倘若 我 们 使 
用 另外 一 种 比较 物品 的 方法 会 怎样 呢 ? 我 们 不 利用 专家 所 给 出 的 重要 属性 来 描述 物品 从 而 计算 
它们 之 间 的 相似 度 , 而 是 利用 用 户 对 它们 的 意见 来 计算 相似 度 。 这 就 是 协同 过 滤 中 所 使 用 的 方法 。 
它 并 不 关心 物品 的 描述 属性 ， 而 是 严格 地 按照 许多 用 户 的 观点 来 计算 相似 度 。 图 14-3 给 出 了 由 一 
些 用 户 及 其 对 前 面 给 出 的 部 分 菜肴 的 评级 信息 所 组 成 的 矩阵 。 


日 
式 手 
鳗 炸 寿 烤 撕 
色 鸡 司 牛 猪 
饭 排 饭 内 内 
Jim {2 0 0 4 4 
John 5 5 5 3 3 
Sally | 2 4 2 1 2 


图 14-3 ”用 于 展示 相似 度 计 算 的 简单 矩阵 
我 们 计算 一 下 手 撕 猪肉 和 烤 牛 肉 之 间 的 相似 度 。 一 开始 我 们 使 用 欧 氏 距离 来 计算 。 手 撕 猪 肉 


和 烤 牛 肉 的 欧 氏 距离 为 ; 
V4-47 +G3-3) +(2-1) =1 
而 手 撕 猪 肉 和 鲁 鱼 饭 的 欧 氏 距离 为 : 


(4-2)2 +(3~5) +(2—2) =2.83 


在 该 数据 中 ,由 于 手 括 猪肉 和 烤 牛 肉 的 路 离 小 于 手 据 猪 肉 和 鲤鱼 饭 的 距离 ,因此 手 撕 猪 肉 与 
烤 牛 肉 比 与 鳗鱼 饭 更 为 相似 。 我 们 希望 ， 相 似 度 值 在 0 到 1 之 间 变 化 ,并且 物 品 对 越 相 似 ， 它 们 的 
”相似 度 值 也 就 越 大 。 我们 可 以 用 “相似 度 =1(1+ 距 离 )” 这 样 的 算式 来 计算 相似 度 。 当 距离 为 0 时 ， 
相似 度 为 1.0。 如 果 距 离 真 的 非常 大 时 ， 相 似 度 也 就 趋 近 于 0。 

第 二 种 计算 距离 的 方法 是 皮尔 进 相 关系 数 ( Pearson correlation )。 我 们 在 第 8 章 度量 回归 方程 
的 精度 时 曾经 用 到 过 这 个 量 , 它 度量 的 是 两 个 向 量 之 间 的 相似 度 。 该 方法 相对 于 欧 氏 距离 的 一 个 
优势 在 于 ， 它 对 用 户 评级 的 量 级 并 不 人 敏感。 比如 某 个 狂躁 者 对 所 有 物品 的 评分 都 是 $ 分 ， 而 另 一 
个 忧郁 者 对 所 有 物品 的 评分 都 是 1 分 , 皮尔 逊 相关 系数 会 认为 这 两 个 向 量 是 相等 的 。 在 NumPy 中 ， 
皮尔 逊 相关 系数 的 计算 是 由 函数 corrcoef () 进行 的 ， 后 面 我 们 很 快 就 会 用 到 它 了 。 皮 尔 逊 相关 
系数 的 取 值 范围 从 -1 到 +1， 我 们 通过 0.5 + 0.5*corrcoef() 这 个 函数 计算 ,并且 把 其 取 值 范 
围 归 一 化 到 0 到 1 之 间 。 

另 一 个 常用 的 距离 计算 方法 就 是 余弦 相似 度 ( cosine similarity ), 其 计算 的 是 两 个 向 量 夹 角 的 
余弦 值 。 如 果 夹 角 为 90 度 ， 则 相似 度 为 0; 如 果 两 个 向 量 的 方向 相同 ， 则 相似 度 为 1.0。 同 皮尔 逊 
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相关 系数 一 样 ,余弦 相似 度 的 取 值 范围 也 在 -1 到 +1 之 间 , 因此 我 们 也 将 它 归 一 化 到 0 到 1 之 间 。 计 
算 余弦 相似 度 值 ， 我 们 采用 的 两 个 向 量 4 和 8B 夹 角 的 余弦 相似 度 的 定义 如 下 : 


A:B 
0=—— 
alal 
其 中 , || 才 、||BI 表 示 向 量 4、B 的 2 范 数 ， 你 可 以 定义 向 量 的 任 一 范 数 ， 但 是 如 果 不 指 定 范 数 
阶 数 ， 则 都 假设 为 2 范 数 。 向 量 [4,2,21 的 2 范 数 为 : 


V4 +32+22 
同样 ，NumPy 的 线性 代数 工具 箱 中 提供 了 范 数 的 计算 方法 linalg .norm()。 


接 下 来 我 们 将 上 述 各 种 相似 度 的 计算 方法 写成 Python 中 的 函数 。 打 开 svdRec.py 文 件 并 加 人 下 
列 代码 。 


程序 清单 14-1 ”相似 度 计 算 
from numpy import * 
from numpy import linalg as la 


def ecludsim(inA, inBp): 
return 1.0/(1.0 + la.norm(inA - inB)) 


def pearssim(inA,inB): 
if len(inA) < 3 : return 1.0 
return 0.5+0.S*corrcoef (inA, inB, rowvar = 0) [0] [1] 


def cosSim(ina,inB) : 
num = float (inA.T*inB) 
denom = la.norm{(inA)*la.norm(inBp) 
return 0.5+0.5* (num/denom) 


程序 中 的 3 个 函数 就 是 上 面 提 到 的 几 种 相似 度 的 计算 方法 。 为 了 便于 理解 ，NumPy 的 线性 代 
数 工具 箱 linalg 被 作为 1a 导 人 ， 函 数 中 假定 inA 和 inB 都 是 列 向 量 。perassim() 函数 会 检查 是 否 
存在 3 个 或 更 多 的 点 。 如 果 不 存在 ,该 函数 返回 1.0， 这 是 因为 此 时 两 个 向 量 完全 相关 。 

下 面 我 们 对 上 述 函 数 进行 尝试 。 在 保存 好 文件 svdRec.py 之 后 , 在 Python 提示 符 下 输入 如 下 命 


>>> reloadq(SvdRec) 

<module 'SVGRec' from 'svdRec.pyc’'> 

>>> myMat=mat (svdRec .loadExData {()) 

>>> svdRec.ecludsim{(myMat [:,0] ,myMat [:,4]) 
0.12973190755680383 

>>> gvdRec.ecludSsim(myMat [:,0],myMat[:,0]) 
1.0 


欧 氏 距离 看 上 去 还 行 ， 那 么 接 下 来 试 试 余弦 相似 度 : 


>>> SvdRec.cosSim(myMat[:,0] ,myMat[{:,4]) 
0.5 

>>> SvdRec.cosSim(myMat {:,0]1,myMat[:,01) 
1.0000000000000002 
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余弦 相似 度 似乎 也 行 ， 就 再 试 试 皮尔 逊 相关 系数 ; 


>>> SvdRec.pearsSim(myMat [:,0] ,myMatf:,4]) 
0.20596538173840329>>> svdRec.pearsSim(myMat [:,0] ,myMat [:,0]) 
1.0 


上 面 的 相似 度 计算 都 是 假设 数据 采用 了 列 向 量 方式 进行 表示 。 如 果 利 用 上 述 函 数 来 计算 两 个 行 
向 量 的 相似 度 就 会 遇 到 问题 〈 我 们 很 容易 对 上 述 函 数 进行 修改 以 计算 行 向 量 之 间 的 相似 度 > 这 里 采 
用 列 向 量 的 表示 方法 ， 瞳 示 着 我 们 将 利用 基于 物品 的 相似 度 计算 方法 。 后 面 我 们 会 阐述 其 中 的 原因 。 


14.4.2 ”基于 物品 的 相似 度 还 是 基于 用 户 的 相似 度 ? 


我 们 计算 了 两 个 餐馆 菜肴 之 间 的 距离 ， 这 称 为 基于 物品 ( item-based ) 的 相似 度 。 另 一 种 计 
算 用 户 距离 的 方法 则 称 为 基于 用 户 (user-based ) 的 相似 度 。 回 到 图 14-3, 行 与 行 之 间 比 较 的 是 基 
于 用 户 的 相似 度 , 列 与 列 之 间 比 较 的 则 是 基于 物品 的 相似 度 。 到 底 使 用 哪 一 种 相似 度 呢 ”这 取决 
于 用 户 或 物品 的 数目 。 基 于 物品 相似 度 计算 的 时 间 会 随 物 品 数 量 的 增加 而 增加 ,基于 用 户 的 相似 
度 计 算 的 时 间 则 会 随 用 户 数量 的 增加 而 增加 。 如 果 我 们 有 一 个 商店 ， 那 么 最 多 会 有 几 千 件 商品 。 
在 撰写 本 书 之 际 ， 最 大 的 商店 大 概 有 100 000 件 商品 。 而 在 Netflix 大 赛 中 ， 则 会 有 480 000 个 用 户 
和 17 700 部 电影 。 如 果 用 户 的 数目 很 多 ， 那 么 我 们 可 能 倾向 于 使 用 基于 物品 相似 度 的 计算 方法 。 

对 于 大 部 分 产品 导向 的 推荐 引擎 而 言 ,用户 的 数量 往往 大 于 物品 的 数量 ， 即 购买 商品 的 用 户 
数 会 多 于 出 售 的 商品 种 类 。 


14.4.3 ”推荐 引擎 的 评价 


如 何 对 推荐 引擎 进 行 评 价 呢 ? 此 时 , 我 们 既 没 有 预测 的 目标 值 , 也 没有 用 户 来 调查 他 们 对 预 
测 的 满意 程度 。 这 里 我 们 就 可 以 采用 前 面 多 次 使 用 的 交叉 测试 的 方法 。 具 体 的 做 法 就 是 ,我们 将 
某 些 已 知 的 评分 值 去 掉 ， 然 后 对 它们 进行 预测 ， 最 后 计算 预测 值 和 真实 值 之 间 的 差异 。 

通常 用 于 推荐 引擎 评价 的 指标 是 称 为 最 小 均 方 根 误差 (Root Mean Squared Error，RMSE ) 的 
指标 ， 它 首先 计算 均 方 误差 的 平均 值 然后 取 其 平方 根 。 如 果 评 级 在 1 是 到 5 星 这 个 范围 内 ， 而 我 们 
得 到 的 RMSE 为 1.0， 那 么 就 意味 着 我 们 的 预测 值 和 用 户 给 出 的 真实 评价 相差 了 一 个 星 级 。 


14.5 示例 : 餐馆 菜 着 推荐 引擎 


现在 我 们 就 开始 构建 一 个 推荐 引擎 ， 该 推荐 引擎 关注 的 是 餐馆 食物 的 推荐 。 假设 一 个 人 在 家 
决定 外 出 吃饭 , 但 是 他 并 不 知道 该 到 哪儿 去 吃饭 ， 该 点 什么 菜 。 我们 这 个 推荐 系统 可 以 帮 他 做 到 : 
这 两 点 。 

首先 我 们 构建 一 个 基本 的 推荐 引擎 ， 它 能 够 寻找 用 户 没有 尝 过 的 菜肴 。 然 后 ， 通 过 SVD 来 减 
少 特 征 空 间 并 提高 推荐 的 效果 。 人 人 们 使 用 。 
最 后 ， 我 们 介绍 在 构建 推荐 系统 时 面临 的 一 些 问题 。 
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14.5.1 推荐 未 党 过 的 菜 着 


推荐 系统 的 工作 过 程 是 : 给 定 一 个 用 户 ， 系 统 会 为 此 用 户 返 回 N 个 最 好 的 推荐 菜 。 为 了 实现 
这 一 点 ， 则 需要 我 们 做 到 .: 

(1) 寻找 用 户 没有 评级 的 菜肴 ， 即 在 用 户 - 物品 矩阵 中 的 0 值 ; 

(2) 在 用 户 没 有 评级 的 所 有 物品 中 ， 对 每 个 物品 预计 一 个 可 能 的 评级 分 数 。 这 就 是 说 ， 我 们 
认为 用 户 可 能 会 对 物品 的 打分 ( 这 就 是 相似 度 计算 的 初 囊 ); 

(3) 对 这 些 物 品 的 评分 从 高 到 低 进 行 排序 ， 返 回 前 N 个 物品 。 

好 了 ， 接 下 来 我 们 尝试 这 样 做 。 打 开 svdRec.py 文 件 并 加 入 下 列 程序 清单 中 的 代码 。 


程序 清单 14-2 基于 物品 相似 度 的 推荐 引擎 


def standEst (dataMat, user, simMeas, item): 

n = shape(dataMat) [1] 

simTotal = 0.0; ratSimTotal = 0.0 

for J in range(n): 
userRating = dataMat fuser, j] 
if userRating == 0: continue 寻找 两 个 用 户 都 
overLap = nonzero(logical and(dataMat [:,item] .A>0, \ 有 评级 的 物品 

. dataMat {:,j] .A>0)) [01 
if lenloverLap) == 0: similarity = 0 
else: similarity = simMeas (dataMat {overLap, iteml, \ 
dataMat [overLap,1j]) 

#print 'the $d and $q similarity is: %f' % (item, j, similarity) 
simTotal += similarity 
ratSsimTotal += Similarity * userRating 

if simTotal == 0: return 0 

else: return ratSsimTotal/simTotal 


def recommend (dataMat, user, N=3, simMeas=cosSim, estMethod=standEst).: 


unratedItems = nonzerol(dataMat {user, :] .A==0) [1] 
if len(unratedIitems) == 0: return 'you rated everything' 寻找 未 评级 的 物品 
itemScores = [] 


for item in unratedItems : 
estimatedScore = estMethod(dataMat, user, simMeas, item) 
itemScores.append( (item, estimatedscore)) 


return sortedl(itemScores, \ | 四 寻找 前 N 个 未 评级 物品 
key=lambda jj: jj[1], reverse=True){:N] 


上 述 程序 包含 了 两 个 函数 。 第 一 个 函数 是 standEst () ， 用 来 计算 在 给 定 相 似 度 计算 方法 的 
条 件 下 ， 用 户 对 物品 的 估计 评分 值 。 第 二 个 函数 是 recommend ()， 也 就 是 推荐 引擎 ， 它 会 调用 
standEst () 函数 。 我 们 先 讨 论 standEst () 函数 ， 然 后 讨论 recommend ( ) 函数 。 . 

函数 standEst () 的 参数 包括 数据 和 矩阵、 用户 编号 、 物 品 编号 和 相似 度 计 算 方法 。 假 设 这 里 
的 数据 矩阵 为 图 14-1 和 图 14-2 的 形式 ， 即 行 对 应 用 户 、 列 对 应 物品 。 那 么 ,我们 首先 会 得 到 数据 
集中 的 物品 数目 ， 然 后 对 两 个 后 面 用 于 计算 估计 评分 值 的 变量 进行 初始 化 。 接 着 ,我 们 遍历 行 中 
的 每 个 物品 。 如 果 某 个 物品 评分 值 为 90， 就 意味 着 用 户 没有 对 该 物品 评分 ， 跳 过 了 这 个 物品 。 该 
循环 大 体 上 是 对 用 户 评 过 分 的 每 个 物品 进行 遍历 ， 并 将 它 和 其 他 物品 进行 比较 。 变 量 overLap 
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给 出 的 是 两 个 物品 当中 已 经 被 评分 的 那个 元 素 @。 如 果 两 者 没有 任何 重合 元 素 ，、 则 相似 度 为 0 且 
中 止 本 次 循环 。 但 是 如 果 存 在 重合 的 物品 ， 则 基于 这 些 重合 物品 计算 相似 度 。 随 后 ， 相 似 度 会 不 
斯 累加 ， 每 次 计算 时 还 考虑 相似 度 和 当前 用 户 评分 的 乘积 。 最 后 ， 通 过 除 以 所 有 的 评分 总 和 ， 对 
上 述 相 似 度 评分 的 乘积 进行 归 一 化 。 这 就 可 以 使 得 最 后 的 评分 值 在 0 到 5 之 间 , 而 这 些 评分 值 则 用 
于 对 预测 值 进 行 排 序 。 

函数 >ecommena () 产 生 了 最 高 的 N 个 推荐 结果 。 如 果 不 指定 N 的 大 小 ， 则 默认 值 为 ?。 该 函 
数 另外 的 参数 还 包括 相似 度 计 算 方法 和 估计 方法 。 我 们 可 以 使 用 程序 清单 14-1 中 的 任意 一 种 相似 
度 计 算 方 法 。 此 时 我 们 能 采用 的 估计 方法 只 有 一 种 选择 , 但 是 在 下 一 小 节 中 会 增加 另外 一 种 选择 。 
该 函数 的 第 一 件 事 就 是 对 给 定 的 用 户 建立 一 个 未 评分 的 物品 列表 @。 如 果 不 存在 未 评分 物品 ， 那 
么 就 退出 函数 ; 和 否则， 在 所 有 的 未 评分 物品 上 进行 循环 。 对 每 个 未 评分 物品 ， 则 通过 调用 
stangEst() 来 产生 该 物品 的 预测 得 分 。 该 物品 的 编号 和 估计 得 分 值 会 放 在 一 个 元 素 列表 
itemScores 中 。 最 后 按照 估计 得 分 ， 对 该 列表 进行 排序 并 返回 @。 该 列表 是 从 大 到 小 逆序 排列 
的 ， 因 此 其 第 一 个 值 就 是 最 大 值 。 

接 下 来 看 看 它 的 实际 运行 效果 。 在 保存 svdRec.py 文 件 之 后 ， 在 Python 提示 符 下 输入 
命令 : . 


>>> reload (svdRec) 
<module ’'svdRec!' from 'svdRec.py'> 


下 面 ， 我 们 调 人 了 一 个 矩阵 实例 ， 可 以 对 本 章 前 面 给 出 的 矩阵 稍 加 修改 后 加 以 使 用 。 首 先 ， 
调 人 原始 矩阵 : 

>>> myMat=mat (svdRec .1oadExData()) 

该 矩阵 对 于 展示 SVD 的 作用 非常 好 , 但 是 它 本 身 不 是 十 分 有 趣 , 因此 我 们 要 对 其 中 的 一 些 值 
进行 更 改 : 


>>> myMat [0,1]=myMat [0,0] =myMat [1,0]=myMat {2,0]=4 
>>> myMat [3,3] =2 


现在 得 到 的 矩阵 如 下 : 


>>> myMat 
matrix([[4, 


POPOODO 


一 
户 
PDNHOOR 
OOOoODPOWD 
oO 
oy 


[5, 5, 5, 0, 01]) 
好 了 ， 现 在 我 们 已 经 可 以 做 些 推荐 了 。 我 们 先 尝试 一 下 默认 的 推荐 : 


>>> svdRec.recommend (myMat, 2) 
[(2, 2.5000000000000004), (1, 2.0498713655614456)] 


这 表明 了 用 户 2( 由 于 我 们 从 0 开始 计数 , 因此 这 对 应 了 矩阵 的 第 3 行 ) 对 物品 2 的 预测 评分 值 为 2.5， 
对 物品 1 的 预测 评分 值 为 2.05。 下 面 我 们 就 利用 其 他 的 相似 度 计 算 方 法 来 进行 推荐 : 
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>>> SVvdRec .recommend (myMat, 2, simMeas=svdRec.ecludSim) 
[(2, 3.0), (1, 2.8266504712098603)] 

>>> SvdRec.recommend (myMat, .2, simMeas=svdRec .PearSSim) 
[(2, 2.5)}, (1, 2.0)] 


我 们 可 以 对 多 个 用 户 进行 尝试 ， 或 者 对 数据 集 做 些 修改 来 了 解 其 给 预测 结果 带 来 的 变化 。 
这 个 例子 给 出 了 如 何 利用 基于 物品 相似 度 和 多 个 相似 度 计算 方法 来 进行 推荐 的 过 程 ,下面 我 
们 介绍 如 何 将 SVD 应 用 于 推荐 。 


14.5.2 ”利用 SVD 提高 推荐 的 效果 


实际 的 数据 集会 比 我 们 用 于 展示 recommena ( ) 函数 功能 的 myMat 和 矩阵 稀 朴 得 多 。 图 14-4 就 给 
出 了 一 个 更 真实 的 矩阵 的 例子 。 


印 

日 三 和 鲁 度 
式 文 宾 印 麻 宫 奶 俄 
鳗 炸 寿 烤 鱼 三 度 奖 保 酷 式 
鳞 鸡 司 牛 汉 明 烧 豆 鸡 映 汉 
饭 排 饭 肉 保 治 鸡 腐 了 了 堡 
Brett | 2 0 0 4 4 0 0 0 0 0 0 
Rb lo 0 0 0 0o00 0 0 0 0 5 
prew lo 0 0 0 00 0 1 0 4 0 
Scott |3 3 4 0 3 0 0 2 2 0 0 
Mary |5 5 5 0 0 0 0 0 0 0 0 
Brent |0 0 0 0 00 5§ 0 0 5 0 
Kye |4 0 4 0 0 0 0 0 0 0 5 
saa i090 0 0 0 0 4 0 0 0 0 4 
shaney 10 0 0 0 0 0 5 0 0 5 0 
Brendan [0 0 0 3 0 0 0 0 4 5 0 
Leanna | 4 4 2 1 1 2 1 0 4 5 0 


图 14-4 一 个 更 大 的 用 户 - 菜肴 矩阵 ， 其 中 有 很 多 物品 都 没有 评分 ， 这 比 一 个 人 金 
填充 的 矩阵 更 接近 真实 情况 


我 们 可 以 将 该 矩阵 输入 到 程序 中 去 ， 或 者 从 下 载 代 码 中 复制 函数 1oadExDpata2 () 。 下 面 我 
们 计算 该 矩阵 的 SVD 来 了 解 其 到 底 需 要 多 少 维特 征 。 


>>>from numpy import 1inalg as la 
>>> U,Sigma,VT=1la.svd (mat (svdRec .loadExData2 () ) ) 
>>> Sigma 


array([ 1.38487021e+01， 1.15944583e+01, 1.10219767e+01, 
5.31737732e+00, 4.55477815e+00， 2,.69935136e+00， 
1.53799905e+00, 6.46087828e-01, 4.45444850e-01, 


9.86019201e-02, 9.96558169e-17]) 
接 下 来 我 们 看 看 到 底 有 多 少 个 奇异 值 能 达到 总 能 量 的 90%。 首 先 ， 对 sigma 中 的 值 求 平方 ; 


>>> Sig2=Sigma**2 


再 计算 一 下 总 能 量 ; 
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>>> Sum (Sig2) 
541.99999999999932 


再 计算 总 能 量 的 90%: 


>>> SUum(Sig2)*0.9 
487.79999999999939 


然后 ， 计 算 前 两 个 元 素 所 包含 的 能 量 ， 


>>> sum(Sig2[:21) 
378 .8295595113579 


该 值 低 于 总 能 量 的 90%， 于 是 计算 前 三 个 元 素 所 包含 的 能 量 : 


>>> sum(Sig2[:3]) 
500.50028912757909 


该 值 高 于 总 能 量 的 90%， 这 就 可 以 了 。 于 是 ， 我 们 可 以 将 一 个 11 维 的 矩阵 转换 成 一 个 3 维 的 矩阵 。 

下 面 对 转 换 后 的 三 维 空间 构造 出 一 个 相似 度 计 算 函 数 。 我 们 利用 SVD 将 所 有 的 菜肴 映射 到 一 个 低 
维 空间 中 去 。 在 低 维 空间 下 ， 可 以 利用 前 面相 同 的 相似 度 计 算 方法 来 进行 推荐 。 我 们 会 构造 出 一 
个 类 似 于 程序 清单 14-2 中 的 standEst () 函数 。 打 开 svdRec.py 文 件 并 加 入 如 下 程序 清单 中 的 代 
码 。 


程序 清单 14-3 ”基于 SVD 的 评分 估计 

def svagst (dataMat, user, simMeas, item): 
n = shape (dataMat) {1] 
simTotal = 0.0; ratSimTotal = 0.0 
U,Sigma,VvT = la.svd(dataMat) .9 建立 对 角 和 矩 阵 
Sig4 = mat (eye (4)*Sigma[:4]) 
xformedIitems = dataMat.T * U{:,:4] * Sig4.I ’ 
for j in range tn) : 0 构建 转换 后 的 物品 

userRating = dataMat [user,j] 
if userRating == 0 or j==item: continue 
Similarity = simMeas (xformedItems [item, :] .T,\ 
xformedIitems[j,:].T) 
”Print 'the %d and %d similarity is: %f' %$ (item, j, similarity) 

simTotal += similarity 
zatSimTotal += similarity * userRating 

if simTotal == 0: return 0 

else: return ratSimTotal/simTotal 


上 述 程序 中 包含 有 一 个 函数 svdEst ()。 在 recommend() 中 ， 这 个 函数 用 于 替换 对 stand- 
Est () 的 调用 ， 该 函数 对 给 定 用 户 给 定 物品 构建 了 一 个 评分 估计 值 。 如 果 将 该 函数 与 程序 清单 
14-2 中 的 standEst () 函数 进行 比较 ， 就 会 发 现 很 多 行 代 码 都 很 相似 。 该 函数 的 不 同 之 处 就 在 于 
它 在 第 3 行 对 数据 集 进行 了 SVD 分 解 。 在 SVD 分 解 之 后 ， 我 们 只 利用 包含 了 90% 能 量 值 的 奇异 值 ， 
这 些 奇 异 值 会 以 NumPy 数 组 的 形式 得 以 保存 。 因 此 如 果 要 进行 矩阵 运算 , 那么 就 必须 要 用 这 些 奇 
蜡 值 构建 出 一 个 对 角 和 矩阵 @@。 然 后 ， 利 用 wu 矩阵 将 物品 转换 到 低 维 空间 中 @@。 

对 于 给 定 的 用 户 ，for 循 环 在 用 户 对 应 行 的 所 有 元 素 上 进行 遍历 。 这 和 standEst ( ) 函数 中 
的 for 循 环 的 目的 一 样 ， 只 不 过 这 里 的 相似 度 计算 是 在 低 维 空间 下 进行 的 。 相 似 度 的 计算 方法 也 
会 作为 一 个 参数 传递 给 该 函数 。 然 后 ,我 们 对 相似 度 求 和 ， 同 时 对 相似 度 及 对 应 评分 值 的 乘积 
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和 。 这 些 值 返回 之 后 则 用 于 估计 评分 的 计算 。for 循 环 中 加 入 了 一 条 print 语 句 ， 以 便 能 够 了 解 
相似 度 计算 的 进展 情况 。 如 果 觉 得 这 些 输出 很 累 蒙 ， 也 可 以 将 该 语句 注释 掉 。 

接 下 来 看 看 程序 的 执行 效果 。 将 程序 清单 14-3 中 的 代码 输入 到 文件 svdRec.py 中 并 保存 之 后 ， 
在 Python 提 示 符 下 运行 如 下 命令 : 


>>> reload {svdRec) 

<module ‘svdRec' from 'svdRec.pyc'> 

>>> svdRec.recommend (myMat, 1, estMethod=svdRec .svdEst) 
The 0 and 3 similarity is 0.362287. 


The 9 and 10 similarity is 0.497753 ， 
[(6，3.387858021353602)，(8，3.3611246496054976)， (7, 3.3587350221130028)] 


下 面 再 尝试 男 外 一 种 相似 度 计算 方法 : 


>>> svdRec.recommend (myMat, 1, estMethod=svdRec. svdEst, 
simMeas=svdRec.pearsSim) 
The 0 and 3 similarity is 0.116304. 


The 9 and 10 similarity is 0.566796. 
{{(6, 3.3772856083690845), (9, 3.3701740601550196), (4, 3.3675118739831169)] 


我 们 还 可 以 再 用 其 他 多 种 相似 度 计算 方法 尝试 一 下 。 感 兴趣 的 读者 可 以 将 这 里 的 结果 和 前 面 
的 方法 〈 不 做 SVD 分 解 ) 进行 比较 ， 看 看 到 底 哪 个 性 能 更 好 。 


14.5.3 ”构建 推荐 引擎 面临 的 挑战 


本 节 的 代码 很 好 地 展示 出 了 推荐 引擎 的 工作 流程 以 及 SVD 将 数据 映射 为 重要 特征 的 过 程 。 在 
撰写 这 些 代码 时 ,我 尽量 保证 它们 的 可 读 性 , 但 是 并 不 保证 代码 的 执行 效率 。 一 个 原因 是 , 我 们 
不 必 在 每 次 估计 评分 时 都 做 SVD 分 解 。 对 于 上 述 数 据 集 , 是 否 包含 SVD 分 解 在 效率 上 没有 太 大 的 
区 别 。 但 是 在 更 大 规模 的 数据 集 上 ，SVD 分 解 会 降低 程序 的 速度 。SVD 分 解 可 以 在 程序 调 人 时运 
行 一 次 。 在 大 型 系统 中 ，SVD 每 天 运行 一 次 或 者 其 运行 频率 并 不 高 ， 并 且 还 要 离线 运行 。 

推荐 引擎 中 还 存在 其 他 很 多 规模 扩展 性 的 挑战 性 问题 ， 比 如 矩阵 的 表示 方法 。 在 上 面 给 出 的 
例子 中 有 很 多 0, 实际 系统 中 0 的 数目 更 多 。 也 许 , 我 们 可 以 通过 只 存储 非 零 元 素来 节省 内 存 和 计 
算 开 销 ? 另 一 个 潜在 的 计算 资源 浪费 则 来 自 于 相似 度 得 分 。 在 我 们 的 程序 中 , 每 次 需要 一 个 推荐 
得 分 时 , 都 要 计算 多 个 物品 的 相似 度 得 分 , 这 些 得 分 记录 的 是 物品 之 间 的 相似 度 。 因此 在 需要 时 ， 
这 些 记录 可 以 被 另 一 个 用 户 重复 使 用 。 人 另 一 个 普遍 的 做 法 就 是 离线 计算 并 保存 相似 度 
得 分 。 

推荐 引擎 面临 的 另 一 个 问题 就 是 如 何在 缺乏 数据 时 给 出 好 的 推荐 。 这 称 为 冷 启动 ( cold-start ) 
问题 ， 处 理 起 来 十 分 困难 。 这 个 问题 的 另 一 个 说 法 是 ,用 户 不 会 喜欢 一 个 无 效 的 物品 ， 而 用 户 不 
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喜欢 的 物 唱 又 无 效 。" 如果 推荐 只 是 一 个 可 有 可 无 的 功能 ， 那 么 上 述 问 题 倒 也 不 大 。 但 是 如 果 应 
用 的 成 功 与 否 和 推荐 的 成 功 与 否 密切 相关 ， 那么 问题 就 变 得 相当 严重 了 。 

冷 启动 问题 的 解决 方案 , 就 是 将 推荐 看 成 是 搜索 问题 。 在 内 部 表现 上 , 不 同 的 解决 办 法 虽然 
有 所 不 同 ,但 是 对 用 户 而 言 却 都 是 透明 的 。 为 了 将 推荐 看 成 是 搜索 问题 , 我 们 可 能 要 使 用 所 需要 
推荐 物品 的 属性 。 在 餐馆 菜肴 的 例子 中 ,我 们 可 以 通过 各 种 标签 来 标记 菜肴 ,比如 素食 美式 BBQ、 
价格 很 贵 等 。 同 时 ， 我 们 也 可 以 将 这 些 属 性 作为 相似 度 计算 所 需要 的 数据 ， 这 被 称 为 基于 内 容 
( content-based ) 的 推荐 。 可 能 ， 基 于 内 容 的 推荐 并 不 如 我 们 前 面 介 绍 的 基于 协同 过 滤 的 推荐 效果 
好 ， 但 我 们 拥有 它 ， 这 就 是 个 良好 的 开始 。 


14.6 ”基于 SVD 的 图 像 压缩 


在 本 节 中 , 我 们 将 会 了 解 一 个 很 好 的 关于 如 何 将 SVD 应 用 于 图 像 压 缩 的 例子 。 通 过 可 视 化 的 
方式 , 该 例子 使 得 我 们 很 容易 就 能 看 到 SVD 对 数据 近似 的 效果 。 在 代码 库 中 , 我 们 包含 了 一 张 手 
写 的 数字 图 像 ， 该 图 像 在 第 2 章 使 用 过 。 原 始 的 图 像 大 小 是 32x32=1024 像 素 ， 我 们 能 否 使 用 更 少 
的 像素 来 表示 这 张 图 呢 ? 如 果 能 对 图 像 进行 压缩 ， 那 么 就 可 以 节省 空间 或 带宽 开销 了 。 

我 们 可 以 使 用 SVD 来 对 数据 降 维 ， 从 而 实现 图 像 的 压缩 。 下 面 我 们 就 会 看 到 利用 SVD 的 手写 
数字 图 像 的 压缩 过 程 了 。 在 下 面 的 程序 清单 中 包含 了 数字 的 读 人 和 压缩 的 代码 。 要 了 解 最 后 的 压 
缩 效果 ， 我 们 对 压缩 后 的 图 像 进行 了 重 构 。 打 开 svdRec.py 文 件 并 加 入 如 下 代码 。 


程序 清单 14-4 图 像 压 缩 函数 
def printMat (inMat, thresh=0.8): 
for i in range (32): 
for k in range(32) : 
if float (inMat [i,k]) > thresh: 
print 1, 
eise: print 0， 
print '! 





def imgCompress (numSV=3, thresh=0.8): 

myl = [] 

for line in open('0 5.txt') .readlines{(): 
newRow = [] 
for i in range(32): 

DewRow.appenG (int (iine [i])) 

myl .append (newRow) 

myMat = mat (myl) 

print "****xoriginal matrix*wwkwk 灾 1 

printMat (myMat, thresh) 

U, Sigma,vT = 1a.Svd (myMat) 





@ 也 就 是 说 ， 在 协同 过 滤 场 景 下 由 于 新 物品 到 来 时 由 于 缺乏 所 有 用 户 对 其 的 喜好 信息 ， 因 此 无 法 判断 每 个 用 户 对 
其 的 喜好 。 而 无 法 判断 某 个 用 户 对 其 的 喜好 ， 也 就 无 法 利用 该 商品 。 译 者 注 
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基于 SVD 的 图 像 压 缩 
一 NO sigma 是 一 个 对 角 和 矩阵 ， 因此 需要 建立 一 个 全 0 和 矩阵 ， 


矩阵 了 。 接 下 来 就 开始 对 原始 图 像 进行 SVD 分 解 并 重 构图 像 。 在 程序 中 , 通过 
奇异 值 填充 到 对 角 线 上 。 最 后 ， 通 过 截断 的 g 和 V 和 矩阵 ， 用 sigRecon 得 到 重 构 
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第 14 章 
130。 和 原 数 目 1024 相 比 ， 我 们 获得 了 几乎 10 倍 的 压缩 比 。 


32) 
14.7 本章 小 结 


SVD 是 一 种 强大 的 降 维 工 具 , 我 们 可 以 利用 SVD 来 逼近 和 矩阵 并 从 中 提取 重要 特征 。 通 过 保留 
矩阵 80% ~ 90% 的 能 量 ， 就 可 以 得 到 重要 的 特征 并 去 掉 噪 声 。SVD 已 经 运用 到 了 多 个 应 用 中 ， 其 


中 一 个 成 功 的 应 用 案例 就 是 推荐 引擎 。 
推荐 引擎 将 物品 推荐 给 用 户 ， 协 同 过 滤 则 是 一 种 基于 用 户 喜 好 或 行为 数据 的 推荐 的 实现 方 


可 以 看 到 ， 只 需要 两 个 奇异 值 就 能 相当 精确 地 对 图 像 实现 重 构 。 那 么 ,我 们 到 底 需要 多 少 个 
0-1 的 数字 来 重 构 图 像 呢 ?Uv 和 Vi 都 是 32 x 2 的 矩阵 ， 有 两 个 奇异 值 。 因 此 总 数字 数目 是 


000000000011111111111i1111i1100.00000 
000000000011111i111111i1111110000000 
000000000001111i1111i11i111i111000000000 
0000000000001111111i11110000000000 
00000000000000111i11i111i1000000000000 
(32, 

00000000000000000000000000000000 
00000000000000000000000000000000 
00000000000001111100000000000000 
00000000000011111111000000000000 
00000000000111111111100000000000 
000000000011111111i111110000000000 
000000000011111i1111i11i1111i10000000000 
00000000011110000000001000000000 
000000001111000000000011i100000000 
000000001111000000000011i110000000 
000000001111000000000011i110000000 
000000001i111100000000001110000000 
00000000111100000000001110000000 
0000000011110000000000111i10000000 
000000001111000000000011i10000000 
000000001111000000000011i110000000 
000000001i11231i1000000000011i110000000 
00000000111100000000001110000000 
000000001111000000000011i110000000 
000000001i111100000000001110000000 
000000001111000000000011i110000000 
00000000111100000000001110000000 
000000001111000000000011i110000000 
000000001111i100000000001110000000 
00000000111100000000001110000000 
00000000111100000000001100000000 
00000000001111i11111111i11000000000 
000000000011111111i1111i11i10000000000 
00000000001i1111111i11111i11i10000000000 
0000000000001i11111111i1100000000000 
000000000000111i111111000000000000 
00000000000000000000000000000000 


***x*reconstructed matrix using 2 singular valueSw****w* 
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法 。 协同 过 滤 的 核心 是 相似 度 计算 方法 ,， 有 很 多 相似 度 计算 方法 都 可 以 用 于 计算 物品 或 用 户 之 间 
的 相似 度 。 通 过 在 低 维 空间 下 计算 相似 度 ，SVD 提 高 了 推荐 系 引 擎 的 效果 。 
在 大 规模 数据 集 上 ，SVD 的 计算 和 推荐 可 能 是 一 个 很 困难 的 工程 问题 。 通 过 离线 方式 来 进行 


SVD 分 解 和 相似 度 计算 ， 是 一 种 减少 宛 余 计算 和 推荐 所 需 时 间 的 办 法 。 在 下 一 章 中 , 我 们 将 介绍 
在 大 数据 集 上 进行 机 器 学 习 的 一 些 工具 。 
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大 数据 与 MapReduce ， 


本 章 内 容 

口 MapReduce 

口 Python 中 Hadoop 流 的 使 用 

口 使 用 mrjob 库 将 MapReduce 自 动 化 

口 利用 Pegasos 算 法 并 行 训练 支持 向 量 机 


常 听 人 说 ;“ 兄 弟 , 你 举 的 例子 是 不 错 , 但 我 的 数据 太 大 了 1!1” 毫 无 疑问 ,工作 中 所 使 用 的 数 
据 集 将 会 比 本 书 的 例子 大 很 多 。 随 着 大 量 设备 连 上 互联 网 加 上 用 户 也 对 基于 数据 的 决策 很 感 兴 
趣 ， 所 收集 到 的 数据 已 经 远 远 超出 了 我 们 的 处 理 能 力 。 幸 运 的 是 , 一 些 开源 的 软件 项 目 提 供 了 海 
量 数据 处 理 的 解决 方案 ， 其 中 一 个 项 目 就 是 Hadoop ， 它 采用 Java 语 言 编 写 ， 支 持 在 大 量 机 器 上 分 
布 式 处 理 数据 。 | 

假想 你 为 一 家 网 络 购物 高 店 工作 ， 有 很 多 用 户 来 访问 网 站 ， 其 中 有 一 些 人 会 购买 商品 ， 有 一 
些 人 则 在 随意 浏览 后 离开 了 网 站 。 对 于 你 来 说 ， 可 能 很 想 识 别 那些 有 购物 意愿 的 用 户 。 如 和 何 实现 
这 一 点 ? 可 以 浏览 Web 服 务 器 日 志 找 出 每 个 人 所 访问 的 网 页 。 日 志 中 或 许 还 会 记录 其 他 行为 ， 如 
果 这 样 ， 就 可 以 基于 这 些 行 为 来 训练 分 类 器 。 唯 一 的 问题 在 于 数据 集 可 能 会 非常 大 ,在 单机 上 训 
练 算法 可 能 要 运行 好 几 天 。 本章 就 将 介绍 一 些 实用 的 工具 来 解决 这 样 的 问题 , 包括 Hadoop 以 及 一 
些 基于 Hadoop 的 Python 工具 包 。 

Hadoop 是 MapReduce 框 架 的 一 个 免费 开源 实现 ， 本 章 首先 简单 介绍 MapReduce 和 Hadoop 项 
目 , 然后 学 习 如 何 使 用 Python 编 写 MapReduce 作 业 ?。 这些 作 业 先 在 单机 上 进行 测试 , 之 后 将 使 用 
亚马逊 的 Web 服 务 在 大 量 机 器 上 并 行 执行 。 一 旦 能 够 熟练 运行 MapReduce 作 业 ， 本 章 我 们 就 可 以 
讨论 基于 MapReduce 处 理 机 器 学 习 算 法 任务 的 一 般 解 决 方案 。 在 本 章 中 还 将 看 到 一 个 可 以 在 
Python 中 自动 执行 MapReduce 作 业 的 marjob 框 架 。 最 后 ， 介 绍 如 何 用 mrjob 构 建 分 布 式 SVM， 在 大 
量 的 机 器 上 并 行 训 练 分 类 器 。 





QD 一 个 作业 即 指 把 一 个 MapReduce 程 序 应 用 到 一 个 数据 集 上 。 一 一 译 者 注 
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I 





优点 ;可 在 短 时 间 内 完成 大 量 工作 。 
缺点 ; 算法 必须 经 过 重 写 ， 需 要 对 系统 工程 有 一 定 的 理解 。 
适用 数据 类 型 ， 数值 型 和 标 称 型 数据 。 


MapReduce 是 一 个 软件 框架 ,可 以 将 单个 计算 作业 分 配给 多 台 计 算 机 执行 。 它 假定 这 些 作业 
在 单机 上 需要 很 长 的 运行 时 间 , 因此 使 用 多 台 机 器 缩短 运行 时 间 。 常 见 的 例子 是 日 常 统计 数字 的 
汇总 ， 该 任务 单机 上 执行 时 间 将 超过 一 整 天 。 

尽管 有 人 声称 他 们 已 经 独立 开发 过 类 似 的 框架 ， 美国 还 是 把 MapReduce 的 专利 颁发 给 了 
Google。Google 公 司 的 Jeffrey Dean 和 Sanjay Ghemawat 在 2004 年 的 一 篇 论文 中 第 一 次 提出 了 这 个 
思想 ， 该 论文 的 题目 是 “MapReduce: Simplified Data Processing on Large Clusters” “MapReduce 
的 名 字 由 函数 式 编程 中 常用 的 map 和 reduce 两 个 单词 组 成 。 

MapReduce 在 大 量 节点 组 成 的 集群 上 运行 。 它 的 工作 流程 是 : 单个 作业 被 分 成 很 多 小 份 ， 输 
人 数据 也 被 切片 分 发 到 每 个 节点 ,各 个 节点 只 在 本 地 数据 上 做 运算 , 对 应 的 运算 代码 称 为 mapper， 
这 个 过 程 被 称 作 map? 阶 段 。 每 个 mapper 的 输出 通过 某 种 方式 组 合 (一 般 还 会 做 排序 )。 排 序 后 的 
结果 再 被 分 成 小 份 分 发 到 各 个 节点 进行 下 一 步 处 理工 作 。 第 二 步 的 处 理 阶段 被 称 为 reduce 阶 段 ， 
对 应 的 运行 代码 被 称 为 reducer。reducer 的 输出 就 是 程序 的 最 终 执行 结果 。 

MapReduce 的 优势 在 于 ， 它 使 得 程序 以 并 行 方 式 执行 。 如 果 集 群 由 10 个 节点 组 成 ， 而 原 
先 的 作业 需要 10 个 小 时 来 完成 ， 那 么 应 用 MapReduce， 该 作业 将 在 一 个 多 小 时 之 后 得 到 同样 
的 结果 。 举 个 例子 ， 给 出 过 去 100 年 内 中 国 每 个 省 每 天 的 正确 气温 数据 ， 我 们 想 知道 近 100 年 
中 国 国内 的 最 高 气温 。 这 里 的 数据 格式 为 : <province><date><temp>。 为 了 统计 该 时 段 内 的 最 
高 温度 ， 可 以 先 将 这 些 数据 根据 节点 数 分 成 很 多 份 ， 每 个 节点 各 自 寻 找 本 机 数据 集 上 的 最 高 
温度 。 这 样 每 个 mapper 将 产生 一 个 温度 ， 形 如 <“max”><temp>， 也 就 是 所 有 的 mapper 都 会 
产生 相同 的 key:“max"” 字符 串 。 最 后 只 需要 一 个 reducer 来 比较 所 有 mapper 的 输出 ， 就 能 得 到 

全 局 的 最 高 温度 值 。 





注意 ”在 任何 时 候 ， 每 个 mapper 或 reducer 之 间 都 不 进行 通信 。 每 个 节点 只 处 理 自己 的 事务 ， 
且 在 本 地 分 配 的 数据 集 上 运算 。 





QD 1. Dean, §. Ghemawat, “MapReduce: Simplified Data Processing on Large Clusters,” OSDI ’04: 6th Symposium on 
Operating System Design and Implementa tion, San Francisco, CA, December, 2004. 

@@ map、reduce 一 般 都 不 翻译 ,，sort、combine 有 人 分 别 翻译 成 排序 、 合 并 。mapper 和 reducer 分 别 是 指 进行 map 和 reduce 
操作 的 程序 或 节点 ，key/value 有 人 翻译 成 键 / 值 。 这 几 个 词 ， 在 本 章 均 未 翻译 。 一 一 译 者 注 

@@ 这 是 指 mapper 各 自 之 间 不 通信 ，reducer 各 自 之 间 不 通信 ， 而 reducer 会 接收 mapper 生 成 的 数据 。 一 一 译 者 注 
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不 同类 型 的 作业 可 能 需要 不 同 数 目的 reducer。 再 回 到 温度 统计 的 例子 , 虽然 这 次 使 用 的 数据 集 
相同 , 但 不 同 的 是 这 里 要 找 出 每 年 的 最 高 温度 。 这 样 的 话 , mapper 应 先 找到 每 年 的 最 大 温度 并 输出 ， 
所 以 中 间 数 据 的 格式 将 形 如 <year><temp>。 此 外 ， 还 需要 保证 所 有 同一 年 的 数据 传递 给 同一 个 
reducer， 这 由 map 和 reduce 阶 段 中 间 的 sort 阶 段 来 完成 。 该 例 中 也 给 出 了 MapReduce 中 值得 注意 的 一 
点 ， 即 数据 会 以 key/value 对 的 形式 传递 。 这 里 , 年代 (year ) 是 key， 温 度 (temp ) 是 value。 因 此 sort 
阶段 将 按照 年 代 把 数据 分 类 ， 之 后 合并 。 最 终 每 个 reducer 就 会 收 到 相同 的 key 值 。 

从 上 述 例子 可 以 看 出 ，reducer 的 数量 并 不 是 固定 的 。 此 外 ， 在 MapReduce 的 框架 中 还 有 其 他 
一 些 灵活 的 配置 选项 。MapReduce 的 整个 编 配 工作 由 主 节点 ( master node ) 控制 。 这 些 主 节点 控 

“ 制 整个 MapReduce 作 业 编 配 ， 包 括 每 份 数据 存放 的 节点 位 置 ， 以 及 map、sort 和 reduce 等 阶段 的 时 
序 控 制 等 。 此 外 ， 主 节点 还 要 包含 容错 机 制 。 一 般 地 ， 每 份 mapper 的 输入 数据 会 同时 分 发 到 多 个 
节点 形成 多 份 副本 ， 用 于 事务 的 失效 处 理 。 一 个 MapReduce 集 群 的 示意 图 如 图 15-1 所 示 。 














图 15-1 MapReduce 框 架 的 示意 图 。 在 该 集群 中 有 3 台 双 核 机 器 ， 如 果 机 器 0 失效 ， 作 业 仍 可 
以 正常 继续 . 

图 15-1 的 每 台 机 器 都 有 两 个 处 理 器 , 可 以 同时 处 理 两 个 map 或 者 reduce 任 务 。 如 果 机 器 0 在 map 
阶段 宕 机 ， 主 节点 将 会 发 现 这 一 点 。 主 节点 在 发 现 该 问题 之 后 ， 会 将 机 器 0 移出 集群 ， 并 在 剩余 
的 节点 上 继续 执行 作业 。 在 一 些 MapReduce 的 实现 中 ， 在 多 个 机 器 上 都 保存 有 数据 的 多 个 备份 ， 
例如 在 机 器 0 上 存放 的 输入 数据 可 能 还 存放 在 机 器 1 上 ， 以 防 机 器 0 出 现 问题 。 同 时 ， 每 个 节点 都 
必须 与 主 节点 通信 , 表明 自己 工作 正常 。 如 果 某 节点 失效 或 者 工作 异常 ， 主 节点 将 重启 该 节点 或 
者 将 该 节点 移出 可 用 机 器 池 。 | 
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总 结 一 下 上 面 几 个 例子 中 关于 MapReduce 的 学 习 要 点 : 

口 主 节 点 控制 MapReduce 的 作业 流程 ; 

口 MapReduce 的 作业 可 以 分 成 map 任 务 和 reduce 任 务 ; 

口 map 任 务 之 间 不 做 数据 交流 ，reduce 任 务 也 一 样 ; 

口 在 map 和 reduce 阶 段 中 间 ， 有 一 个 sort 或 combine 阶 段 ; 

口 数据 被 重复 存放 在 不 同 的 机 器 上 ， 以 防 某 个 机 器 失效 ; 

口 mapper 和 reducer 传 输 的 数据 形式 为 key/value 对 。 

Apache 的 Hadoop 项 目 是 MapReduce 框 架 的 一 个 实现 。 下 一 节 将 开始 讨论 Hadoop 项 目 ， 并 介 
绍 如 何在 Python 中 使 用 它 。 


15.2 Hadoop 流 


Hadoop 是 一 个 开源 的 Java 项 目 ， 为 运行 MapReduce 作 业 提 供 了 大 量 所 需 的 功能 。 除 了 分 布 式 
计算 之 外 ，Hadoop 自 带 分 布 式 文件 系统 。 

本 书 既 不 是 Java， 也 不 是 Hadoop 的 教材 ， 因 此 本 节 只 对 Hadoop 做 简单 介绍 ， 只 要 能 满足 在 
Python 中 用 Hadoop 来 执行 MapReduce 作 业 的 需求 即 可 。 如 果 读 者 想 对 Hadoop 做 深入 理解 , 可 以 阅 
读 《Hadoop 实 战 》? 或 者 浏览 Hadoop 官 方 网 站 上 的 文档 (http://hadoop.apache.org/ )。 此 外 ,Mahout 
in action* 一 书 也 为 在 MapReduce 下 实现 机 器 学 习 算 法 提供 了 很 好 的 参考 资料 。 

Hadoop 可 以 运行 Java 之 外 的 其 他 语言 编写 的 分 布 式 程序 。 因 为 本 书 以 Python 为 主 ， 所 以 
下 面 将 使 用 Python 编 写 MapReduce 代 码 ， 并 在 Hadoop 流 中 运行 。Hadoop 流 (http://hadoop. 
apache, org/ common/docs/current/streaming.html ) 很 像 Linux 系 统 中 的 管道 ( 管道 使 用 符号 | ， 
可 以 将 一 个 命令 的 输出 作为 另 一 个 命令 的 输入 )。 如 果 用 mapper.py 调 用 mapper, 用 reducer.py 调 
用 reducer， 那 么 Hadoop 流 就 可 以 像 Linux 命 令 一 样 执行 ， 例 如 : 


cat inputFile.txt | python mapper.py | sort | python reducer.py > 
outputFile.txt 


这 样 ， 类 似 的 Hadoop 流 就 可 以 在 多 台 机 器 上 分 布 式 执行 ， 用 户 可 以 通过 Linux 命 令 来 测试 
Python 语言 编写 的 MapReduce 脚 本 。 


15.2.1 分 布 式 计算 均值 和 方差 的 mapper 


接 下 来 我 们 将 构建 一 个 海量 数据 上 分 布 式 计算 均值 和 方差 的 MapReduce 作 业 。 示 范 起 见 ， 
这 里 只 选取 了 一 个 小 数据 集 。 在 文本 编辑 器 中 创建 文件 mrMeanMapper.py， 并 加 入 如 下 程序 清单 
中 的 代码 。 


QD Chuck Lam, Hadoop in Action (Manning Publications, 2010)， 中 文 版 由 人 民 邮 电 出 版 社 出 版 。 
©® Sean Owen, Robin Anil, Ted Dunning, and Ellen Friedman, Mahout in Action (Manning Publications, 2011)， 中 文 版 即将 
由 人 民 邮 电 出 版 社 出 版 。 
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程序 清单 15-1 分布 式 均值 和 方差 计算 的 mapper 


import sys 
from numpy import mat, mean, power 


def read input (file): 
for line in file: 
yield line.rstrip() 


input read input (sys.stdin) 

input [float (line) for line in input] 
numInputs = len(input) 

input = mat (input) 

sqInput = power (input,2) 


print "%d\t%f\t%f" % (numIinputs, mean(input), mean(sqInput)) 
print >> sys.stderr, "report: Still alive" 


这 是 一 个 很 简单 的 例子 : 该 mapper 首 先 按 行 读 取 所 有 的 输入 并 创建 一 组 对 应 的 浮 点 数 , 然后 
得 到 数组 的 长 度 并 创建 NumPy 和 矩阵 。 再 对 所 有 的 值 进行 平方 , 最 后 将 均值 和 平方 后 的 均值 发 送出 
去 。 这 些 值 将 用 于 计算 全 局 的 均值 和 方差 。 


注意 “一 个 好 的 习惯 是 向 标准 错误 输出 发 送 报告 。 如 果 某 作业 10 分 钟 内 没有 报告 输出 ， 则 将 
被 Hadoop 中 止 。 





下 面 看 看 程序 清单 15-1 的 运行 效果 。 首 先 确认 一 下 在 下 载 的 源码 中 有 一 个 文件 inputFile.txt， 
其 中 包含 了 100 个 数 。 在 正式 使 用 Hadoop 之 前 , 先 来 测试 一 下 mapper。 在 Linux 终 端 执 行 以 下 命令 : 
cat inputFile.txt | Python mrMeanMapper .py 


如 果 在 Windows 系 统 下 ， 可 在 DOS 窗 口 输入 以 下 命令 : 


Python mrMeanMapper.py < inputFile.txt 


运行 结果 如 下 : 
100 0.509570 0.344439 


report: still aliVe 
其 中 第 一 行 是 标准 输出 ,也 就 是 reducer 的 输入 ; 第 二 行 是 标准 错误 输出 ， 即 对 主 节 点 做 出 的 
响应 报告 ， 表 明 本 节点 工作 正常 。 


15.2.2 ”分 布 式 计 算 均 值 和 方差 的 reducer 


至 此 ，mapper 已 经 可 以 工作 了 , 下面 介 绍 reducer。 根据 前 面 的 介绍 ，mapper 接 受 原始 的 输入 
并 产生 中 间 值 传递 给 reducer。 很 多 mapper 是 并 行 执行 的 , 所 以 需要 将 这 些 mapper 的 输出 合并 成 一 
个 值 。 接 下 来 给 出 reducer 的 代码 : 将 中 间 的 key/value 对 进行 组 合 。 打 开 文 本 编辑 器 ， 建 立 文件 
mrMeanReducerpy， 然 后 输入 程序 清单 15-2 的 代码 。 
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程序 清单 15-2 ”分 布 式 均值 和 方差 计算 的 reducer 
Import sys 
from numpy import mat, mean, power 


def read input (file): 
for line in file: 
yield line.rstrip() 


input = read input (sys.stdin) 
mapperOut = [line.split('\t') for line in input] 
cumVal=0.0 
cumSumSq=0.0 
cumN=0.0 
for instance in mapperOut: 
nj = float (instance{0]) 
CumN += nj 
cumVal += nj*float (instance [1]) 
cumSumSq += nj*float (Instance [2] ) 
mean = cumVal/cumN 
varSum = (cumSumSq - 2*mean*cumVal + cumN*mean*mean) /cumN 
print "gd\t%f\tSf» % (cumN, mean, varSsum) 
print >> sys.stderr, "report: still alive' 


程序 清单 15-2 就 是 reducer 的 代码 ， 它 接收 程序 清单 15-1 的 输出 ， 并 将 它们 合并 成 为 全 局 的 均 
值 和 方差 ， 从 而 完成 任务 。 

你 可 以 在 自己 的 单机 上 用 下 面 的 命令 测试 一 下 : 

Scat inputFile.txt | Python mrMeanMapper.py | python mrMeanReducer.py 
如 果 是 DOS 环 境 ， 键 入 如 下 命令 : 

gpython mrMeanMapper.py < inputFile.txt | python mrMeanReducer.py 

后 面 的 章节 将 介绍 如 何在 多 台 机 器 上 分 布 式 运行 该 代码 。 你 手边 或 许 没 有 10 台 机 器 ,没有 问 
题 ， 下 节 就 会 介绍 如 何 租用 服务 器 。 


15.3 在 Amazon 网 络 服务 上 运行 Hadoop 程序 


如 果 要 在 100 台 机 器 上 同时 运行 MapReduce 作 业 ， 那 么 就 需要 找到 100 台 机 器 ， 可 以 采取 购买 
的 方式 ,或 者 从 其 他 地 方 租用 。Amazon 公 司 通过 Amazon 网 络 服务 ( Amazon Web Services，AWS， 
http:Waws.amazon.comy/ )， 将 它 的 大 规模 计算 基础 设施 租借 给 开发 者 。 

AWS 提 供 网 站 、 流 媒体 、 移 动 应 用 等 类 似 的 服务 ,其 中 存储 、 带 宽 和 计算 能 力 按 价 收费 , 用 
户 可 以 仅 为 使 用 的 部 分 按时 缴费 , 无 需 长 期 的 合同 。 这 种 仅 为 所 需 买 单 的 形式 , 使 得 AWS 很 有 诱 
惑 力 。 例 如 ， 当 你 临时 需要 使 用 1000 台 机 器 时 ,可 以 在 AWS 上 申请 并 做 几 天 实验 。 几 天 后 当 你 发 
现 当前 的 方案 不 可 行 ， 就 即时 关 掉 它 ， 不 需要 再 为 这 1000 台 机 器 支出 任何 费用 。 本 节 首 先 介 绍 几 
个 目前 在 AWS 上 可 用 的 服务 ， 然 后 介绍 AWS 上 运行 环境 的 搭建 方法 ， 最 后 给 出 了 一 个 在 AWS 上 
运行 Hadoop 流 作业 的 例子 。 
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15.3.1 AWS 上 的 可 用 服务 


AWS 上 提供 了 大 量 可 用 的 服务 。 在 行内 人 士 看 来 , 这 些 服务 的 名 字 很 容易 理解 ,而 在 新 手 看 
来 则 比较 神秘 。 目 前 AWS 还 在 不 停 地 演变 , 也 在 不 断 地 添加 一 些 新 的 服务 。 下 面 给 出 一 些 基 本 的 
稳定 的 服务 。 

口 S3 一 简单 存储 服务 ， 用 于 在 网 络 上 存储 数据 ， 需 要 与 其 他 AWS 产 品 配合 使 用 。 用 户 可 

以 租借 一 组 存储 设备 ， 并 按照 数据 量 大 小 及 存储 时 间 来 付费 。 

口 EC2 一 弹性 计算 云 ( Elastic Compute Cloud )， 是 使 用 服务 器 镜像 的 一 项 服务 。 它 是 很 多 
AWS 系 统 的 核心 ， 通 过 配置 该 服务 器 可 以 运行 大 多 数 的 操作 系统 。 它 使 得 服务 器 可 以 以 
镜像 的 方式 在 几 分 钟 内 启动 ， 用 户 可 以 创建 、 存 储 和 共享 这 些 镜 像 。EC2 中 “弹性 ”的 由 
来 是 该 服务 能 够 迅速 便捷 地 根据 需求 增加 服务 的 数量 。 

口 Elastic MapReduce (EMR ) 一 一 弹性 MapReduce， 它 是 AWS 的 MapReduce 实 现 ， 搭 建 
于 稍 旧版 本 的 Hadoop 之 上 (Amazon 希 望 保持 一 个 稳定 的 版 本 ,因此 做 了 些 修改 , 没有 
使 用 最 新 的 Hadoop )。 它 提供 了 一 个 很 好 的 GUI, 并 简化 了 Hadoop 任 务 的 启动 方式 。 用 
户 不 需要 因为 集群 琐碎 的 配置 (如 Hadoop 系 统 的 文件 时 人 或 Hadoop 机 还 的 参数 修改 ) 
而 多 花心 思 。 在 EMR 上 ， 用 户 可 以 运行 Java 作 业 或 Hadoop 流 作业 ， 本 书 将 对 后 者 进行 


介绍 。 


另外 , 很 多 其 他 服务 也 是 可 用 的 , 本 书 将 着 重 介 绍 EMR。 下面 还 需要 用 到 S3 服 务 , 因为 EMR 
需要 从 S3 上 读 取 文件 并 启动 安装 Hadoop 的 EC2 服 务 器 镜像 。 


15.3.2 ”开启 Amazon 网 络 服 务 之 旅 


使 用 AWS 之 前 ， 首 先 需 要 创建 AWS 账 号 。 开 通 AWS 账 号 还 需要 一 张 信 用 卡 ， 后 面 章节 中 的 
练习 将 花费 大 约 1 美 元 的 费用 。 打 开 http://aws.amazon.com/ 可 以 看 到 如 图 15-2 所 示 的 界面 ,在 右上 
部 有 “现在 注册 ”( Sign Up Now ) 按钮 。 点 击 后 按照 指令 进行 ， 经 过 三 个 页 面 就 可 以 完成 AWS 
的 注册 。 注意 ， 你 需要 注册 S3、EC2 和 EMR 三 项 服务 。 

建立 了 AWS 账 号 后 ， 登 录 进 AWS 控 制 台 并 点 击 EC2、Elastic MapReduce 和 S3 选 项 卡 , 确认 你 
是 否 已 经 注册 了 这 些 服 务 。 如 果 你 没有 注册 某 项 服务 ,会 看 到 如 图 15-3 所 示 的 提示 。 
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Sign in to the AWS Management Console  : 前 Create an AWS Account : . English 
Search: | Entire Site v | F. 
”Developers Community ~“ Support ” Account | 


lions and services 新 LW 案 康 0) 一笑 卫 和 色 一 办 全 Amazon Web Services Account 








s to Japan 。 儿 史上 尺 本日 本 | 上 际 | | i 
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| Get Started 





‘44124434 ， Business Managers | 
ed | | Learn how Amazon Web Services | 
Japan Earthquake and Pacific Tsunami Relief Fund ， enabtes you to reach business 


: goals faster: 


» Solutions & Use Cases 








人 ee a_ Security Centef 





图 15-2 ”http:/aws.amazon.com/ 页 面 右 上 部 给 出 了 注册 AWS 账 号 的 按钮 








| 八 You must sign up for Amazon RDS before you can use the Amazon RDS Console. . | 


Tt's quick and free to sign up, just click the button beiow- | 














i 
1 
i 1 
| | 
1 
' 
1 





® 2008 - 2011, Amazon Web Services LLC or ts afates. All right reserved, | Feedback | Support | privacy policy i TermsofUse | 
An amazoncom. company 


图 15-3 ”服务 未 注册 时 的 AWS 控 制 台 提示 信息 。 如 果 你 的 浏览 器 在 $3 、EC2 和 Elastic 
MapReduce 服 务 页 面 也 有 相应 提示 ， 请 注册 这 些 服务 CE 
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这 样 就 做 好 了 在 Amazon 集 群 上 运行 Hadoop 作 业 的 准备 , 下 一 节 将 介绍 在 EMR 上 运行 Hadoop 
的 具体 流程 。 


15.3.3 在 EMR 上 运行 Hadoop 作业 


注册 了 所 需 的 Amazon 服 务 之 后 ， 登 录 AWS 控 制 台 并 点 击 S3 选 项 卡 。 这 里 需要 将 文件 上 传 ， 
以 便 AWS 能 找到 我 们 提供 的 文件 。 

(1) 首先 需要 创建 一 个 新 的 bucket ( 可 以 将 bucket 看 做 是 一 个 驱动 器 )。 例如， 创建 了 一 个 叫 
做 rustbucket 的 bucket。 注意 ，bucket 的 名 字 是 唯一 的 ， 所 有 用 户 均 可 使 用 。 你 应 当 为 自己 的 bucket 
创建 独特 的 名 字 。 

(2) 然后 创建 两 个 文件 夹 ， mrMeanCode 和 mrMeanInput。 将 之 前 用 Python 编写 的 MapReduce 
代码 上 传 到 mrMeanCode， 另 一 个 目录 mrMeanInput 用 于 存放 Hadoop 作 业 的 输入 。 

(3) 在 已 创建 的 bucket 中 〈 如 rustbucket ) 上 传 文件 inputFile.txt 到 mrMeanInput 自 录 。 

(4) 将 文件 mrMeanMapperpy 和 mrMeanReducerpy 上 传 到 mrMeanCode 目 录 。 这 样 就 完成 了 全 
部 所 需 文件 的 上 传 ， 也 做 好 了 在 多 台 机 器 上 启动 第 一 个 Hadoop 作 业 的 准备 。 

(5) 点 击 Elastic MapReduce 选 项 卡 ， 点 击 “ 创 建新 作业 流 ”( Create New Job Flow ) 按钮 ， 并 
将 作业 流 命名 为 nrMean007。 屏幕 上 可 以 看 到 如 图 15-4 所 示 的 页 面 , 在 下 方 还 有 两 个 复 选 框 和 一 
个 下 拉 框 ， 选 择 “ 运 行 自己 的 应 用 程序 ”( Run Your Own Application ) 按钮 并 点 击 “ 继 续 ” 
( Continue ) 进入 到 下 一 步 。 


Create a New Job Flow 


DEFINE }03 FLOW 和 Bi EC SE PE COD BE Ly 


Creating a job flow to process your data using Amazon Rfastic MapReduce is simpfe and qvuick. Let's begin by giving your job flow 3 
name and selecting its type. Jf you don't ajready haye an appjication you'd like to run on Amazon Etastic MapReduce, samples are 
availabie to help you get started, 


Job Flow Name": [mvMean007[ | 








Job Flow Name doesnt need to be unique. We suggest You give i a descfiftve rame. 


Create a Job Flow*: ® Run your own application 


| A Se job ow runsa we adoop job coneisting | 

元 | of map and reduce functions that you have uploaded to 

© Run a sampte application | Amazon $3. The fundtions can be implemented in any of 
RE i the following supported languages; Ruby, Perl Python, 

[Steaming eS -全 | PHP, R, Bash, C++. 





| * Required fiel 
[eeee 辣 Or 





图 15-4 ”EMR 的 新 作业 流 创建 页 面 
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(6) 在 这 一 步 需要 设 定 Hadoop 的 输入 参数 。 如 果 这 些 参数 设置 错误 ， 作 业 将 会 执行 失败 。 在 
“指定 参数 ”( Specify Parameters ) 页 面 的 对 应 字段 上 输入 下 面 的 内 容 : 

Input Locationm ， <your bucket name>/mrMeanInput/inputFile.txt 

Output Location’: <your bucket name>/mrMean007Log 

Mapper ， "Python s3n:// <your bucket name>/mrMeanCode/mrMeanMapper .py'" 

Reducer ， "Python s3n:// <your bucket name>/ImrMeanCode/mrMeanReducer .py" 

可 以 将 “其 他 参数 ”( Extra Args ) 字段 留 空 。 该 字段 的 作用 是 指定 一 些 其 他 参数 ， 如 reducer 
的 数量 。 本 页 面 将 如 图 15-5 所 示 ， 点 击 “ 继 续 ”( Continue )。 


Create a New Job Flow Cancel ixj 
下 


-OD 
OS Hs SPECUY PARALIE (ERS 


名 Mapper and Reducer functions to run within the Job Flow. The mapper and reducers may be either {i) class names referring 
0 3 mapper or reducer class in Hadoop or (ii) locations in Amazon 53, (Click Here for a list of available tools to help you upload and 
le fites from Amazon 53,) The format for specifying a location in Amazon S53 is bucket_name/path_name. The location shoutd 
point to an executable program, for example a python program, Extra arguments are passed to the Hadoop streaming program 
and can specify things such as additional fles to be loaded into the distributed cache. 


Input Location*: <your bucket name>/mrMeaninpul/inputFile, 4xt | 
ne URE of Ni eGAmazon £3 8, Sekar hat conrains ‘the oP fies, 
Output Location*: 
The URL ot Wh: 已 AZon S3 Bud Bucket wo ore Nut vtput file SS ‘Shomd 
be unique、 

Mapper*: |"python Ss3n/<your ur bucket name>/mrMeanCode/mrMeat| 


The mapper Amazan S3 localian or streaming command to 
ExecUto. 


Reducer*: “python sn: Ji<your bucket Lname>/mrMeanCode/mrMea| 
ue Waa Amazon S3 lotation or streaming cammand to 


i Ry i te 寺 生 4 





“ Required fleld 





图 15-5” EMR 的 指定 参数 页 面 


(7) 下 一 个 页 面 需要 设 定 EC2 的 服务 器 镜像 ， 这 里 将 设 定 用 于 存储 数据 的 服务 器 数量 ,默认 值 是 
2， 可 以 改 成 1。 你 也 可 以 按 需 要 改变 EC2 服 务 器 镜像 的 类 型 ， 可 以 申请 一 个 大 内 存 高 运算 能 力 的 机 
器 (当然 也 花费 更 多 )。 实 际 上 ， 大 的 作业 经 常 在 大 的 服务 器 镜像 上 运行 ， 详 见 http:/aws. amazon. 
com/ec2/#instance。 本 节 的 简单 例子 可 以 选用 很 小 的 机 器 。 本 页 面 如 图 15-6 所 示 ， 点 击 “ 继 续 ” 
( Continue )。 

(8) 下 一 个 是 “高 级 选项 ”( Advanced Options ) 页 面 ， 可 以 设 定 有 关 调 试 的 一 些 选 项 。 务 必 
打开 日 志 选 项 ， 在 “亚马逊 $3 日 志 有 路径”( Amazon S3 Log Path ) 里 添加 s3n://<your bucket 
name>/mrMean007DebugLog。 只 有 注册 SimpleDB 才 能 开启 Hadoop 调 斌 服务, 它 是 Amazon 的 访 
问 非 关 系数 据 库 的 简单 工具 。 虽然 开启 了 该 服务 , 但 我 们 不 准备 使 用 它 来 调试 Hadoop 流 作业 。 当 
一 个 Hadoop 作 业 失 败 , 会 有 一 些 失败 信息 写 人 上 述 目录 , 回头 读 一 下 这 些 信 息 就 可 以 分 析 在 哪里 
出 了 问题 。 整 个 页 面 如 图 15-7 所 示 ， 点 击 “ 继 续 ”( Continue )。 
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Create a New Job Flow Cancal {x} 


CONHGURE EC INSJANCES 


Specify the Master, Core and Task Nodes to run Your job flow, For more than 20 instances, compfete the limit request form, 


Master Instance Group: This EC2 instance aslgns Hadoop tasks to Core and Task Nodes and monitors their status. 


! Instance Type: [Smal (m1 (mi ‘small) | 口 Request Spot Instance 


core Instance Group: These EC2 instances run Hadoop tasks and store data Using the Hadoop Distributed Flle System (HDFS). 
| Recommended for capacity needed for the life of your job flow., 


l Instance Count: [1 |} 


Instance Type: [Smail ( 





eh -加 器 Request Spot Instances 


Task Jnstance Group (Optional): These EC2 instances run Hadoop tasks, but do not persist data. Recommended for capatity 
needed ona temporary basis. 


| Instance Count: [一 | 


| Instance Type: [sma mismo) 全 DD Request Spot Instances 


， “ Required fiefd 
Continue EP | 


图 15-6 设 定 EBMR 的 EC2 服 务 器 镜像 的 页 面 ， 在 该 页 面 上 可 以 设 定 MapReduce 作 业 所 需 的 服 
务 器 类 型 和 服务 器 数量 








Create a New ]ob Flow Cancel |X| 


EE A 全 和 ADVANCED OPTIONS bY ee Et fi, 


' Here you can select an EC2 key pair, configure your cluster to use VPC, set your job flow debugging options, and enter advanced 
1 job flow details such as whether itis a long running cluster, 


Amazon EC2 Key Pair: 


Selecta ) Subnet 记 run lhis job tlow in a Virtval PAvate Gloud, Create a VPC 
Configure your logging options, Learn more. 
Amazon 53 Log Path : is3://<your bucket name>/mriMeand07DebugLog _ 了 
(Optiona)); 





The URL of the Armaron 33 bycket in whict your jeb flow logs will be stered、 


Enable Debugging: @® Yes © No 
An index oF vour iods will bg storet in Amazon SimnplesB, An Amazan $3 Lon Path is required. 


Set adyanced job fow options, 
KeepAlive i Yes WHNo This job flawy wlll run upbl manunlly tenminated. 


= Reauired fipld 


Continue al 





图 15-7 ”EMR 的 高 级 选项 页 面 ， 可 以 设 定 调试 文件 的 存放 位 置 ， 也 可 以 设 定 继续 自 
动 运行 机 制 。 作 业 失 败 还 可 以 设 定 登录 服务 器 所 需 的 登录 密 铜 。 如 果 想 检 
查 代码 的 运行 环境 ， 登 录 服 务 器 再 查看 是 个 很 好 的 办 法 


| (9) 关键 的 设置 已 经 完成 ， 可 以 在 接 下 来 的 引导 页 面 使 用 默认 的 设 定 ， 一 直 点 “下 一 步 ” 
(Next ) 到 查看 ( Review ) 页 面 。 检 查 一 下 所 有 的 配置 是 否 正确 ， 然 后 点 击 底部 的 “创建 作业 流 ” 
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(Create Job Flow ) 按钮 。 这 样 新 任务 就 创建 好 了 ， 在 下 一 个 页 面 点 击 “ 关 闭 ”( Close ) 按钮 将 返 
回 BMR 控 制 台 。 当 作业 运行 的 时 候 , 可 以 在 控制 台 看 到 其 运行 状态 。 读 者 不 必 担心 运行 这 样 一 个 
小 作业 花费 了 这 么 多 时 间 ， 因 为 这 里 包含 了 新 的 服务 器 镜像 的 配置 。 最 终 页 面 如 图 15-8 所 示 〈 可 
能 你 那里 不 会 有 这 么 多 的 失败 作业 )。 
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|| Region | 加- vst ~ | | [Sd create Hew Job Fow | ba er {BD showntse || 人 Retest || D tow | 

| viewingr A sll i eh ea ten GolslobHom > >| 
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|| mMeen007 | WW STARTING | 2011.02.22 15:21 PST | 0 hours 0 minutes :0 

| 人 : My Job Flow5 | 3 COMPLETED 2011-02-22 14:22PST : 0hours 2 minutes | 1 

| 口 | My job Flow4 : BFALED 2011-02:22 08:43 PST /0 hours 3 minutes | 1 

| wyJobFowz 翅 FALED 2011.02-2208.25PST ，0hours3minutes 1 

上 局 MyJob Flow2 | 给 FALED 2011-02-2207:29 PST : Ohours 3 minutes 1 | 

| 器: My Job Flow | 说 FAILED 2011.02.22 07:25 PST : 0hours Ominutes | 0 | 
nMean MW | | 培 FALED 2011-02:22 o7:17 PST ;0houre 0 minutes | 0 








图 15-8 EMR 控 制 台 显 示 出 了 一 些 MapReduce 作 业 ， 本 章 的 MapReduce 作 业已 在 这 张 图 中 启动 


新 建 的 任务 将 在 开始 运行 几 分 钟 之 后 完成 ， 可 以 通过 点 击 控制 台 顶 端的 S3 选 项 卡 来 观察 S3 
的 输出 。 选 中 $3 控制 台 后 ,点击 之 前 创建 的 bucket ( 本 例 中 是 rustbucket )。 在 这 个 bucket 里 应 该 可 
以 看 到 一 个 mrMean007Log 目 录 。 双 击 打开 该 目录 ， 可 以 看 到 一 个 文件 part-00000， 该 文件 就 是 
reducer 的 输出 。 双 击 下 载 该 文件 到 本 地 机 器 上 ， 用 文本 编辑 器 打开 该 文件 ， 结 果 应 该 是 这 样 的 ， 


100- 0.509570 0.344439 
个 结果 与 单机 上 用 管道 得 到 的 测试 结果 一 样 ， 所 以 该 结果 是 正确 的 。 如 果 结 果 不 正确 ， 应 当 
怎样 找到 问题 所 在 呢 ? 退回 到 EMR 选 项 卡 , 点 击 “已 经 完成 的 任务 ”( Completed Job ), 可 以 看 到 “ 调 
试 ”( Debug ) 按钮 ， 上面 还 有 一 个 绿色 小 昆虫 的 动画 。 点 击 该 按钮 将 打开 调试 窗口 ， 可 以 访问 不 同 
的 日 志文 件 。 另 外 ， 点 击 “ 控 制 器 ”( Controller ) 超 链接 ， 可 以 看 到 Hadoop 命 令 和 Hadoop 版 本 号 。 
现在 我 们 已 经 运行 了 一 个 Hadoop 流 作业 ， 下 面 将 介绍 如 何在 Hadoop 上 执行 机 器 学 习 算 法 。 
MapReduce 可 以 在 多 台 机 器 上 运行 很 多 程序 ， 但 这 些 程 序 需要 做 一 些 修改 。 


| 不 使 用 AWS | 
如 果 读 者 不 硕 望 使 用 信用 卡 ， 或 者 怕 泄 露 自己 的 信用 卡 信息 ， 六 样 
的 作业 。 下 面 的 步骤 假定 你 已 经 安装 了 Hadoop (http://hadoop.apache. 人 
Getting+Started )。 
(1) 将 文件 复制 到 HDFS: 
>hadoop fs -copyFromLocal inputFile.txt mrmean-i 


(2) 启动 任务 : 
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>hadoop jar  $HADOOP HOME/contrib/streaming/hadoop-0.20.2-sgtream- 
ing.jar -input mrmean-i -output mrmean-o -mapper ‘python mrMeanMap- 
per.py" -reducer "Python mrMeanReducer .py' 

(3) 观察 结果 : 


>hadoop fs -cat mrmean-o/part-00000 


(4) 下 载 结果 : 


>hadoop fs -copyToLocal mrmean-o/part-00000 ， 


完成 


15.4 MapReduce 上 的 机 器 学 习 


在 10 台 机 器 上 使 用 MapReduce 并 不 能 等 价 于 当前 机 器 10 倍 的 处 理 能 力 。 在 MapReduce 代 码 编 
写 合理 的 情况 下 , 可 能 会 近似 达到 这 样 的 性 能 , 但 不 是 每 个 程序 都 可 以 直接 提速 的 , map 和 reduce 
函数 需要 正确 编写 才 行 。 
很 多 机 器 学 习 算 法 不 能 直接 用 在 MapReduce 框 架 上 。 这 也 没关系 ， 正 如 老话 所 说 :“ 需 求 是 发 
上 明之 母 。” 科 学 家 和 工程 师 中 的 一 些 先驱 已 完成 了 大 多 数 常用 机 器 学 习 算法 的 MapReduce 实 现 。 
下 面 的 清单 简要 列 出 了 本 书 常用 的 机 器 学 习 算法 和 对 应 的 MapReduce 实 现 。 
口 简单 贝 叶 斯 一 一 它 属 于 为 数 不 多 的 可 以 很 自然 地 使 用 MapReduce 的 算法 。 在 MapReduce 中 
计算 加 法 非常 容易 ， 而 简单 贝 叶 斯 正 需 要 统计 在 某 个 类 别 下 某 特征 的 概率 。 因 此 可 以 
将 每 个 指定 类 别 下 的 计算 作业 交 由 单个 的 mapper 处 理 , 然后 使 用 reducet 来 将 结果 加 和 。 
口 左近 邻 算法 一 一 该 算法 首先 试图 在 数据 集 上 找到 相似 向 量 ， 即 便 数据 集 很 小 ， 这 个 步骤 也 
将 花费 大 量 的 时 间 。 在 海量 数据 下 ， 它 将 极 大 地 影响 日 常 商业 周期 的 运转 。 一 个 提速 的 办 
法 是 构建 树 来 存储 数据 ， 利 用 树 形 结构 来 缩小 搜索 范围 。 该 方法 在 特征 数 小 于 10 的 情况 下 
效果 很 好 。 高 维 数据 下 〈 如 文本 、 图 像 和 视频 ) 流行 的 近邻 查找 方法 是 局 部 敏感 哈 希 算法 。 
口 支持 向 量 机 ( SVM ) 一 一 第 6 章 使 用 的 Platt SMO 算 法 在 MapReduce 框 架 下 难以 实现 。 但 有 
一 些 其 他 SVM 的 实现 使 用 随机 梯度 下 降 算法 求解 ， 如 Pegasos 算 法 。 另 外 ， 还 有 一 个 近似 
的 SVM 算法 叫做 最 邻近 支持 向 量 机 (proximal SVM )， 求 解 更 快 并 且 易于 在 MapReduce 框 





口 奇异 值 分 解 一 一 Lanczos 算 法 是 一 个 有 效 的 求解 近似 特征 值 的 算法 。 该 算法 可 以 应 用 在 一 
系列 MapReduce 作 业 上 ， 从 而 有 效 地 找到 大 和 抢 阵 的 奇异 值 。 另 外 , 该 算法 还 可 以 应 用 于 主 
成 分 分 析 。 

口 -均值 聚 类 一 一 一 个 流行 的 分 布 式 聚 类 方法 电 做 canopy 聚 类 , 可 以 先 调 用 canopy 聚 类 法 取 





得 初始 的 kf 个 徐 ， 然 后 再 运行 K- 均 值 聚 类 方法 。 











@ Glenn Fung, Olvi L. Mangasarian, “PSVM: Proximal Support Vector Machine,” http://www.cs.wisc.edu/dmi/sym/psvm/. 
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如 果 读 者 有 兴趣 了 解 更 多 机 器 学 习 方 法 的 MapReduce 实 现 , 可 以 访问 Apaehe 的 Mahout 项 目 主 
页 (http://mahout.apache.org/ ) 以 及 参考 Mahout in hction 一 书 。 其 中 Mahout 项 目 以 Java 语 言 编 写 ， 
该 书 也 对 处 理 大 规模 数据 的 实现 细节 做 了 很 详细 的 介绍 。 另 一 个 关于 MapReduce 很 棒 的 资源 是 
Jimmy Lin 和 Chris Dyer 写 的 Data lntensive Text Processing with MapReduce 一 书 。 

接 下 来 将 介绍 一 个 可 以 运行 MapReduce 作 业 的 Python 工具 。 


15.5 在 Python 中 使 用 mrjob 来 自动 化 MapReduce 


上 面 列举 的 算法 大 多 是 迭代 的 。 也 就 是 说 ， 它 们 不 能 用 一 次 MapReduce 作 业 来 完成 ， 而 通常 
需要 多 步 。 在 15.3 节 中 ，Amazon 的 EMR 上 运行 MapReduce 作 业 只 是 一 个 简 例 。 如 果 想 在 大 数据 集 
上 运行 AdaBoost 算 法 该 怎么 办 呢 ? 如 果 想 运行 10 个 MapReduce 作 业 呢 ? 

有 一 些 框架 可 以 将 MapReduce 作 业 流 自动 化 ， 例 如 Cascading 和 Oozie， 但 它们 不 支持 在 
Amazon 的 EMR 上 执行 。Pig 可 以 在 EMR 上 执行 ,也 可 以 使 用 Python 脚本 ， 但 需要 额外 学 习 一 种 
脚本 语言 。( Pig 是 一 个 Apache 项 目 , 为 文本 处 理 提 供 高 级 编程 语言 , 可 以 将 文本 处 理 命令 转换 
成 Hadoop 的 MapReduce 作 业 。) 还 有 一 些 工具 可 以 在 Python 中 运行 MapReduce 作 业 ， 如 本 书 将 
要 介绍 的 mrjob。 

mtrjob? (http:/packages.python.org/mrjob/ ) 之 前 是 Yelp ( 一 个 餐厅 点 评 网 站 ) 的 内 部 框架 ， 
它 在 2010 年 底 实 现 了 开源 。 读 者 可 以 参考 附录 A 来 学 习 如 何 安 装 和 使 用 。 本 书 将 介绍 如 何 使 用 
mrjob 重 写 之 前 的 全 局 均值 和 方差 计算 的 代码 ， 相 信 读 者 能 体会 到 mrjob 的 方便 快捷 。 (需要 指出 
的 是 ，mrjob 是 一 个 很 好 的 学 习 工具 ， 但 仍然 使 用 Python 语 言 编 写 ， 如 果 想 获得 更 好 的 性 能 ， 应 
该 使 用 Java。 ) 


15.5.1 mrjob 与 EMR 的 无 颖 集成 


与 15.3 节 介绍 的 一 样 ， 本 节 将 使 用 mrjob 在 EMR 上 运行 Hadoop 流 ， 区 别 在 于 mrjob 不 需要 上 传 
数据 到 S3， 也 不 需要 担心 命令 输入 是 否 正确 ， 所 有 这 些 都 由 mrjob 后 台 完 成 。 有 了 mrjob， 读 
者 还 可 以 在 自己 的 Hadoop 集 群 上 运行 MapReduce 作 业 ， 当 然 也 可 以 在 单机 上 进行 测试 。 作 业 
在 单机 执行 和 在 EMR 执 行 之 间 的 切换 十 分 方便 。 例 如 ， 将 一 个 作业 在 单机 执行 ， 可 以 输入 以 下 
命令 ; 

% Python mrMean.py < inputFile.txt > myOut.txt 

如 果 要 在 EMR 上 运行 同样 的 任务 ， 可 以 执行 以 下 命令 : 

% Python mrMean.py ~-~r emr < inputFile.txt > myOut.txt 

在 15.3 节 中 , 所 有 的 上 传 以 及 表单 填写 全 由 mrjob 自 动 完成 。 读者 还 可 以 添加 一 条 在 本 地 的 Hadoop 
集群 上 执行 作业 的 命令 ”， 也 可 以 添加 一 些 命令 行 参数 来 指定 本 作业 在 EMR 上 的 服务 器 类 型 和 数目 。 





GD mcjob 文 档 : http:/packages.python.org/mrjob/index.html; 源 代码 : https://github.com/Yelp/mrjob. 
@ 意 指 除了 上 面 两 条 命令 之 外 ， 再 加 一 条 。 译 者 注 
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另外 ,15.3 节 中 的 mapper 和 reducer 分 别 存 于 两 个 不 同 的 文件 中 , 而 mrjob 中 的 mapper 和 reducer 
可 以 写 在 同一 个 脚本 中 。 下 节 将 展示 该 脚本 的 内 容 ， 并 分 析 其 工作 原理 。 


15.5.2 ”mrjob 的 一 个 MapReduce 脚本 剖析 


用 mrjob 可 以 做 很 多 事情 ， 本 书 仍 从 最 典型 的 MapReduce 作 业 开 始 介绍 。 为 了 方便 阐述 ， 继 
续 沿用 前 面 的 例子 , 计算 数据 集 的 均值 和 方差 。 这 样 读者 可 以 更 专注 于 框架 的 实现 细节 ， 所 以 程 
序 清单 15-3 的 代码 与 程序 清单 15-1 和 程序 清单 15-2 的 功能 一 致 。 打 开 文 本 编辑 器 ， 创 建 一 个 新 文 
件 mrMean.py， 并 加 入 下 面 程序 清单 的 代码 。 
程序 清单 15-3 ”分 布 式 均值 方差 计算 的 mrjob 实 现 


from mrjob .job import MRJOb 


class MRmean (MRJob) : 


def 


hh 


de 


def 


de 


mh 


def 


_ init (self, *args, **kwargs): 


super (MRmean, self)}. init  (*args, **kwargs) 
self.inCount = 0 
self.inSum = 0 


self .inSqSsum 0 


map (self, key, val): | 接收 输入 数据 流 


if False: yield 

inVal = float (val) 
self.inCount += 1 
self.inSum += inVal 
Self.insSdqSum += inValrinVal 


| 所 有 输入 到 达 后 开始 处 理 


map_final (self): 

mn = self.insum/self .inCount 

mnSsq = self.insgSsum/self .inCount 
yield (1, [self.inCount, mn, mnsq]) 


reduce (self, key, packedValues): 
cumVal=0.0; cumSumSq=0.0; cumN=0.0 
for valArr in packedValues: 
nj = float (valArr [0}) 
cumN += nj 
cumVal += nj*float (valArr[1]) 
cumSumSg += nj*float (valArr[2]) 
mean = cumVal/cumN 
var = (cumSumSq - 2*mean*cumVal + cumN*mean*mean) /cumN 
yield (mean, var) 


steps (self): 
return ([self .mr (mapper=self.map, reducer=self.reduce,\ 
mapper final=self.map final)]) 


if _name _ == ' main _': 
MRmean .zun () 


该 代码 分 布 式 地 计算 了 均值 和 方差 。 输 入 文本 分 发 给 很 多 mappers 来 计算 中 间 值 ， 这 些 中 间 
值 再 通过 reducer 进 行 累加 ， 从 而 计算 出 全 局 的 均值 和 方差 。 
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为 了 使 用 mrjob 库 ， 需 要 创建 一 个 新 的 MRjob 继 承 类 ， 在 本 例 中 该 类 的 类 名 为 MRmean。 代 码 
中 的 mapper 和 reducer 都 是 该 类 的 方法 ， 此 外 还 有 一 个 叫做 steps () 的 方法 定义 了 执行 的 步骤 。 执 
行 顺序 不 必 完 全 遵从 于 map-reduce 的 模式 ， 也 可 以 是 map-reduce-reduce-reduce， 或 者 map-reduce- 
map-reduce-map-reduce (下 节 会 给 出 相关 例子 )。 在 steps () 方 法 里 ， 需 要 为 mrjob 指 定 mapper 和 
reducer 的 名 称 。 如 果 未 给 出 ， 它 将 默认 调用 mapper 和 reducer 方 法 。 

首先 来 看 一 下 mapper 的 行为 : 它 类 似 于 for 循 环 , 在 每 行 输入 上 执行 同样 的 步骤 。 如 果 想 在 
收 到 所 有 的 输入 之 后 进行 某 些 处 理 , 可 以 考虑 放 在 mapper_final 中 实现 。 这 乍 看 起 来 有 些 古 怪 ， 
但 非常 实用 。 另 外 在 mapper () 和 mapper_final() 中 还 可 以 共享 状态 。 所 以 在 上 述 例子 中 ， 首 
先 在 mapper () 中 对 输入 值 进行 积累 ， 所 有 值 收集 完毕 后 计算 出 均值 和 平方 均值 ， 最 后 把 这 些 值 
作为 中 间 值 通过 yield 语 句 传 出 去 。? 

中 间 值 以 key/value 对 的 形式 传递 。 如 果 想 传 出 去 多 个 中 间 值 , 一 个 好 的 办 法 是 将 它们 打包 成 
一 个 列表 。 这 些 值 在 map 阶 段 之 后 会 按照 key 来 排序 。Haduop 提 供 了 更 改 排序 方法 的 选项 ， 但 默 
认 的 排序 方法 足以 应 付 大 多 数 的 常见 应 用 。 拥 有 相同 key 的 中 间 值 将 发 送 给 同一 个 reducer。 因 此 
你 需要 考虑 key 的 设计 ,使 得 在 sort 阶 段 后 相似 的 值 能 够 收集 在 一 起 。 这 里 所 有 的 mapper 都 使 用 "1” 
作为 key， 因 为 我 希望 所 有 的 中 间 值 都 在 同一 个 reducer 里 加 和 起 来 。® 

mrjob 里 的 reducer 与 mapper 有 一 些 不 同 之 处 ，reducer 的 输入 存放 在 迭代 器 对 象 里。 为 了 能 读 
取 所 有 的 输入 ， 需 要 使 用 类 似 for 循 环 的 迭代 器 。mapper 或 mapper_final 和 reducer 之 间 不 能 共 
享 状 态 ， 因 为 Python 脚本 在 map 和 reduce 阶 段 中 间 没 有 保持 活动 。 如 果 需 要 在 mapper 和 reducer 之 
间 进 行 任何 通信 ， 那 么 只 能 通过 key/value 对 。 在 reducer 的 最 后 有 一 条 输出 语句 ， 该 语句 设 有 key， 
因为 输出 的 key 值 已 经 固定 。 如 果 该 reducer 之 后 不 是 输出 而 是 执行 另 一 个 mapper， 那 么 key 仍 需要 
赋值 。 

无 须 多 言 ， 下 面 看 一 下 实际 效果 ， 先 运行 一 下 mapper， 在 Linux/DOS 的 命令 行 输入 下 面 的 命 
令 (注意 不 是 在 Python 提示 符 下 )。 其 中 的 文件 inputFile.txt 在 第 15 章 的 代码 里 。 

Spython mrMean.py --mapper < inputFile.txt 

运行 该 命令 后 ， 将 得 到 如 下 输出 : 

1 [100, 0.50956970000000001, 0.34443931307935999] 

要 运行 整个 程序 ， 移 除 --mapper 选 项 。 


%python mrMean.py < inputFile.txt 


你 将 在 屏幕 上 看 到 很 多 中 间 步 又 的 描述 文字 ， 最 终 的 输出 如 下 :; 





人 @ 在 一 个 标准 的 map-reduce 流 程 中 ， 作 业 的 输入 即 mapper 的 输入 ，mapper 的 输出 也 称 为 中 间 值 ， 中 间 值 经 过 排序 、 
组 合 等 操作 会 转 为 reducer 的 输入 ， 而 reducer 的 输出 即 为 作业 的 输出 。 一 一 译 者 注 
@ 只 要 所 有 mapper 都 使 用 相同 的 key 就 可 以 。 当 然 ， 不 必 是 “1"， 也 可 以 是 其 他 值 。 一 一 译 者 注 
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streaming final output from c:\users\peter\appdata\local 
\temp\mrMean.Peter.20110228.172656.279000\output\part-00000 
0.50956970000000001 0.34443931307935999 

removing tmp directory c:\users\peter\appdata\local\ 

temp\mrMean .Peter.20110228.172656.279000 

To stream the valid output into a fiie, enter the following command: 
i mrMean.py < inputFile.txt > outFile.txt 


， 要 在 Amazon 的 EMR 上 运行 本 程序 ， 输 入 如 下 命令 《确保 你 已 经 设 定 了 环境 变量 Aws_ 
nr ds nl 这 些 变 量 的 设 定 见 附 录 A )。 
spython mrMean.py -r emr < inputFile.txt > outFile.txt 
完成 了 mrjob 的 使 用 练习 ， 下 面 将 用 它 来 解决 一 些 机 器 学 习 问题 。 上 文 提 到 ， 一 些 迭 代 算法 
仅 使 用 EMR 难 以 完成 ， 因 此 下 一 节 将 介绍 如 何 用 mzrjob 完 成 这 项 任务 。 


15.6 示例: 分布 式 SVM 的 Pegasos 算法 


第 4 章 介 绍 过 一 个 文本 分 类 算法 : 简单 贝 叶 斯 。 该 算法 将 文本 文档 看 做 是 词汇 空间 里 的 向 量 。 
第 6 章 又 介绍 了 效果 很 好 的 SVM 分 类 算法 ,该 算法 将 每 个 文档 看 做 是 成 了 上 万 个 特征 组 成 的 向 量 。 

在 机 器 学 习 领 域 , 海量 文档 上 做 文本 分 类 面临 很 大 的 挑战 。 怎 样 在 如 此 大 的 数据 上 训练 分 类 
器 呢 ? 如果 能 将 算法 分 成 并 行 的 子 任务 ， 那 么 MapReduce 框 架 有 望 帮 我 们 实现 这 一 点 。 回 忆 第 6 
章 ，SMO 算 法 一 次 优化 两 个 支持 向 量 ,并 在 整个 数据 集 上 迭代 ,在 需要 注意 的 值 上 停止 。 该 算法 
看 上 去 并 不 容易 并 行 化 。 


， 在 MapReduce 框 染 上 使 用 SVM 的 一 般 方法 时 

(CD 收集 数据 ， 数据 按 文本 格式 存放 。 

(2) 准备 数据 ; 输入 数据 已 经 是 可 用 的 格式 ， 所 以 不 需 任 何 准 备 工 作 。 如 果 你 需要 解析 一 
个 大 规模 的 数据 集 ， 建 议 使 用 map 作 业 来 完成 ， 从 而 达到 并 行 处 理 的 目的 。 

(3) 分 析 数 据 : 无 。 

(4) 训练 算法 ; 与 普通 的 SVM 一 样 ， 在 分 类 器 训练 上 仍 需 花费 大 量 的 时 间 。 

(5) 测试 算法 : 在 二 维 空间 上 可 视 化 之 后 ， 观 察 超 平面 ， 判 断 算法 是 否 有 效 。 

(9) 使 用 工法 ; 本 例 不 会 展示 一 个 完整 的 应 用 ， 但 会 展示 如 何在 大 数据 集 上 训练 SVM。 该 
算法 其 中 一 个 应 用 场景 就 是 文本 分 类 ， 通 常 在 文本 分 类 里 可 能 有 大 量 的 文档 和 成 于 上 
万 的 特征 。 


SMO 算 法 的 一 个 替代 而 是 Pegasos 算 法 ， 后 者 可 以 很 容易 地 写成 MapReduce 的 形式 。 本 节 将 
分 析 Pegasos 算 法 ， 介 绍 如 何 写 出 分 布 式 版 本 的 Pegasos 算 法 ， 最 后 在 mrjob 中 运行 该 算法 。 
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15.6.1 ”Pegasos 算法 


Pegasos 是 指 原 始 估 计 梯 度 求解 器 ( Primal Estimated sub-GrAdient Solver )。 该 算法 使 用 某 种 
形式 的 随机 梯度 下 降 方法 来 解决 SVM 所 定义 的 优化 问题 ,研究 表明 该 算法 所 需 的 迭代 次 数 取决 于 
用 户 所 期 望 的 精确 度 而 不 是 数据 集 的 大 小 ， 有 关 细 节 可 以 人 参考 原文 "。 原 文 有 长 文 和 短文 两 个 版 
本 ， 推 荐 阅读 长 文 。 

第 6 章 提 到 ，SVM 算 法 的 目的 是 找到 一 个 分 类 超 平面 。 在 二 维 情况 下 也 就 是 要 找到 一 条 
直线 ， 将 两 类 数据 分 隔 开 来 。Pegasos 算 法 工作 流程 是 : 从 训练 集中 随机 挑选 一 些 样本 点 添加 
到 待 处理 列 表 中 ， 之 后 按 序 判断 每 个 样本 点 是 否 被 正确 分 类 ; 如 果 是 则 忽略 ， 如 果 不 是 则 将 
其 加 入 到 待 更 新 集合 。 批 处 理 完 毕 后 ， 权 重 向 量 按 照 这 些 错 分 的 样本 进行 更 新 。 整 个 算法 循 
环 执行 。 

上 述 算法 伪 代 码 如 下 : 

将 w 初 始 化 为 0 

对 每 次 批 处 理 

随机 选择 k 个 样本 点 (向量) 
对 每 个 向 量 
如 果 该 向 量 被 错 分 ; 
更 新 权重 向 量 w 
累加 对 Ww 的 更 新 


为 了 解 实际 效果 ，Pythong 版 本 的 实现 见 程序 清单 15-4。 
程序 清单 15-4 ”SVM 的 Pegasos 算 法 


def predict (w, x): 
return w*x.T 


def batchPegasos (dataset, labels, lam, T, k): 
mn = Shape (dataSet),; w = zeros(n); 
dataIndex = range (m) 
for t in range(1, T+1): 
wDeilta = mat (zeros (n)) 
eta = 1.0/ (lam*tt) 
random.shuffle (dataIndex) 
for j in range (k): 
i = dataIndex[j] 
p = predict(w, dataset {i,:]}) 
if labels[i]*p < 1: 9 将 待 更 新 值 累 加 
wDelta += labels[ij*dataSet [i,:] .A 
w= (1.0 - 1l/t)*w + (eta/k) *wDelta 
return w 





人 S. Shalev-Shwartz, Y. Singer, N. Srebro, “Pegasos: Primal Estimated sub-GrAdient SOlver for SVM,” Proceedings of the 
24th International Conference on Machine Learning 2007. 
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程序 清单 15-4 的 代码 是 Pegasos 算 法 的 串 行 版 本 。 输 入 值 z 和 kx 分 别 设 定 了 迭代 次 数 和 待 处 理 
列表 的 大 小 。 在 T 次 迭代 过 程 中 ， 每 次 需要 重新 计算 eta。 它 是 学 习 率 ， 代 表 了 权重 调整 幅度 的 
大 小 。 在 外 循环 中 ， 需 要 选择 另 一 批 样本 进行 下 一 次 批 处 理 ; 在 内 循环 中 执行 批 处 理 ， 将 分 类 错 
误 的 值 全 部 累加 之 后 更 新 权重 向 量 @。 

如 果 想 试 试 它 的 效果 ,可 以 用 第 6 章 的 数据 来 运行 本 例 程 序 。 本 书 不 会 对 该 代码 做 过 多 分 析 ， 
它 只 为 Pegasos 算 法 的 MapReduce 版 本 做 一 个 铺垫 。 下 节 将 在 mrjob 中 建立 并 运行 一 个 MapReduce 
版 本 的 Pegasos 算 法 。 


15.6.2 ”训练 算法 : 用 mrjob 实现 MapReduce 版 本 的 SVM 


本 节 将 用 MapReduce 来 实现 程序 清单 15-4 的 Pegasos 算 法 , 之 后 再 用 15.5 节 讨论 的 mrjob 框 架 运 
, 行 该 算法 。 首 先 要 明白 如 何 将 该 算法 划分 成 map 阶 段 和 reduce 阶 段 ， 确 认 哪 些 可 以 并 行 ， 哪 些 不 
| 能 并 行 。 
| 对 程序 清单 15-4 的 代码 运行 情况 稍 作 观 察 将 会 发 现 ， 大 量 的 时 间 花 费 在 内 积 计算 上 。 另 外 ， 
内 积 运算 可 以 并 行 ， 但 创建 新 的 权重 变量 w 是 不 能 并 行 的 。 这 就 是 将 算法 改写 为 MapReduce 作 业 
的 一 个 切 信 点。 在 编写 mapper 和 reducer 的 代码 之 前 ， 先 完成 一 部 分 外 围 代码 。 打 开 文 本 编辑 加 ， 
创建 一 个 新 文件 mrSVM.py， 然 后 在 该 文件 中 添加 下 面 程序 清单 的 代码 。 


程序 清单 15-5 “mrjob 中 分 布 式 Pegasos 算 法 的 外 围 代码 


from mtjob .job import MRJob 


























import pickle 
from numpy import * 


class MRsvm (MRJob) : 
DEFAULT_ INPUT_ PROTOCOL = 'json value'， 


def _init _(self, *args, **kwargs): 
Super (MRsvm, self)._ init  (*args, **kwargs) 
self.data = pickle.load (open{\ 
| '<path to your Chl15 code directory>\svmDat27!)) 
昌 Self.w = 0 
|: self.eta = 0.69 
self.dataList = [] 
self.k = Self.options .batchsize 
Selft .numMappers = 1 
self.t = 1 





def configure options (self): 

super (MRsvm, self) .configure options() 

self.add passthrough option( 
'--iterations', dest='iterations', default=2, type='int', 
help='T: number of iterations to run') 

self.add passthrough option!{ 
'--batchsize', dest='batchsize', default=100, type='int', 
help='k: number of data points in a batch') 
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def steps (self).: 
return ([self.mr (mapper=self.map, mapper final=self.map. fin,\ 
reducer-self .reduce)]*self .options.iterations) 


if _ name == ' main '., 
MRsvm.run() 


程序 清单 15-5 的 代码 进行 了 一 些 设 定 ， 从 而 保证 了 map 和 reduce 阶 段 的 正确 执行 。 在 程序 开 
头 , Mrjob、NumPy 和 Pickle 模 块 分 别 通过 一 条 incluade 语 句 导入 。 之 后 创建 了 一 个 mrjob 类 MRsvm， 
其 中 init_() 方 法 初始 化 了 一 些 在 map 和 reduce 阶 段 用 到 的 变量 。Python 的 模块 Pickle 在 加 载 
不 同 版 本 的 Python 文 件 时 会 出 现 问题 。 为 此 , 我 将 Python2.6 和 2.7 两 个 版 本 对 应 的 数据 文件 各 自 存 
为 svmDat26 和 svmDat27。 
对 应 于 命令 行 输 入 的 参数 ， Configure_options () 方法 建立 了 一 些 变量 ， 包 括 迭 代 次 数 
(T)、 待 处 理 列表 的 大 小 (k )。 这 些 参数 都 是 可 选 的 ， 如 果 未 指定 ， 它 们 将 采用 默认 值 。 
最 后 ，steps () 方 法 告诉 mrjob 应 该 做 什么 ， 以 什么 顺序 来 做 。 它 创建 了 一 个 Python 的 列 
表 ， 包含 map、map_fin 和 reduce 这 几 个 步骤 ， 然 后 将 该 列表 乘 以 磷 代 次 数 ， 即 在 每 次 迷 代 中 
重复 调用 这 个 列表 。 为 了 保证 作业 里 的 任务 链 能 正确 执行 ，mapper 需 要 能 够 正确 读 取 reducer 
输出 的 数据 。 单 个 MapReduce 作 业 中 无 须 考虑 这 个 因素 , 这 里 需要 特别 注意 输入 和 输出 格式 的 
对 应 。 
我 们 对 输入 和 输出 格式 进行 如 下 规定 ， 
Mapper 
Inputs: <mapperNum, valueList> 
Outputs: nothing 
Mapper_final 


Inputs: nothing 
Outputs: <1, valueList > 
Reducer 


Inputs: <mapperNum, valueList > 
Outputs: <mapperNum, valueList > 


传人 的 值 是 列表 数组 , valueList 的 第 一 个 元 素 是 一 个 字符 串 , 用 于 表示 列表 的 后 面 存放 的 
是 什么 类 型 的 数据 ， 例 如 {'x' ,23} 和 ['w', [1,5,6]]。 每 个 mapper_final 都 将 输出 同样 的 key， 
这 是 为 了 保证 所 有 的 key/value 对 都 输出 给 同一 个 reducer。 

定义 好 了 输入 和 输出 之 后 ,下面 开 始 写 mapper 和 reducer 方 法 ,打开 mrSVM.py 文 件 并 在 MRsvm 
类 中 添加 下 面 的 代码 。 . 
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程序 清单 15-6 ”分 布 式 Pegasos 算 法 的 mapper 和 reducer 代 码 


def map(self, mapperId, invals): 
if False: yield 
if inVals [0]=='w': 
self.w = inVals[1] 
elif inVals[0]=='x': 
self .dataList .append (inVals [1]) 
elif inVvals[0]=='t': self.t = inVals[1] 
def map fin(self): 
labels = self.datal:,-1]; X=self.data[:,0:-1] 
if self,w == 0: Self.w = [0.001]*shape (X) [1] 
for index in self.dataList: 
p= mat(self.w)*X[index,:].T 
if labels[index]*p < 1.0: 
Yield (1, ['u', index]) 
yield (1, ['w', self.w]) 
Yield {1, fi't', self.t]) 
def reducel(self, , packedVals): 
for valArr in packedvals: 
if valArr{[0]=='u': self.dataList.append (valArr{1]) 
elif valiArr[0]=='w’': Self.w = valaArr[1] 
elif valArr[0]=='t': Sself.t = valArr[1] 
labels = self.datal:,-1}; X=self.data[:,0:-1] 
wMat = mat (self.w); whelta = mat(zeros (len (self .w)))}) 
for index in self.dataList: 


wDelta += float (labels [index] )*X{index,:] 6 
eta = 1.0/(2.0*self.t) 将 更 新 值 累加 


wMat = (1.0 - 1.0/self.t)*wMat + (eta/self.k)*wDelta 
for mapperNum in range(1,self.numMappers+1): 
yield (mapperNum, ['w', wMat.tolist() [0] 1) 
if self.t < self.options.iterations: 
yield (mapperNum, {'‘t'’, self.t+11) 
for j in range(self.k/seilf.numMappers): 
yield (mapperNum, ['x',\ 
random.randint (shape (self .data) [0}) ]) 


程序 清单 15-6 里 的 第 一 个 方法 是 map () ， 这 也 是 分 布 式 的 部 分 ， 它 得 到 输入 值 并 存储 ， 以 便 
在 map_fin() 中 处 理 。 该 方法 支持 三 种 类 型 的 输入 ; w 向 量 、t 或 者 x。t 是 迭代 次 数 ， 在 本 方法 
中 不 参与 运算 。 状 态 不 能 保存 ， 因 此 如 果 需 要 在 每 次 迷 代 时 保存 任何 变量 并 留 给 下 一 次 欠 代 , 可 
以 使 用 key/value 对 传递 该 值 ， 抑 或 是 将 其 保存 在 磁盘 上 。 显 然 前 者 更 容易 实现 ， 速 度 也 更 快 。 

map_fin () 方 法 在 所 有 输入 到 达 后 开始 执行 。 这 时 已 经 获得 了 权重 向 量 w 和 本 次 批 处 理 中 的 
一 组 x 值 。 每 个 x 值 是 一 个 整数 ， 它 并 不 是 数据 本 身 ， 而 是 索引 。 数 据 存储 在 磁盘 上 ， 当 脚本 执行 
的 时 候 读 人 到 内 存 中 。 当 map_fin () 启 动 时 ,， 它 首先 将 数据 分 成 标签 和 数据 ,然后 在 本 次 批 处 理 
的 数据 ( 存储 在 self .dataList 里 ) 上 进行 迭代 ， 如 果 有 任何 值 被 错 分 就 将 其 输出 给 reducer。 
为 了 在 mapper 和 reducer 之 间 保 存 状 态 ，w 向 量 和 t 值 都 应 被 发 送 给 reducer。 

最 后 是 reduce () 函数 ， 对 应 本 例 只 有 一 个 reducer 执 行 。 该 函数 首先 迭代 所 有 的 key/value 对 
并 将 值 解 包 到 一 个 局 部 变量 aatalist 里 。 之 后 datauist 里 的 值 都 将 用 于 更 新 权重 向 量 w， 更 新 
量 在 wpelta 中 完成 累加 人 @。 然后 ， wMat 按 照 wpelta 和 学 习 率 eta 进 行 更 新 。 在 wMat 更 新 完毕 后 ， 





VvWwWwaibbt.com 口 口 0 






































15.6 示例 ; 分 布 式 SVM 的 Pegasos 算法 291 





又 可 以 重新 开始 整个 过 程 : 一 个 新 的 批 处 理 过 程 开始 ， 随 机 选择 一 组 向 量 并 输出 。 注 意 , 这 些 向 
量 的 key 是 mappet 编 号 。 

为 了 看 一 下 该 算法 的 执行 效果 , 还 需要 用 一 些 类 似 于 reducer 输 出 的 数据 作为 输入 数据 启动 该 
任务 ， 我 为 此 附 上 了 一 个 文件 kickStart.txt。 在 本 机 上 执行 前 面 的 代码 可 以 用 下 面 的 命令 ; 


%python mrSVM.py < kickstart .txt 


streaming final output from c:\users\peter\appdata\local\temp 
\mrSVM. Peter.20110301.011916.373000\output\part-00000 

1 ["wn， [0.51349820499999987,， -0.084934502500000009]] 
removing tmp directory c:\users\peter\appdata\local\temp 
NmzSVM .Peter .20110301.011916.373000 


这 样 就 输出 了 结果 。 经 过 2 次 和 50 次 迭代 后 的 分 类 面 如 图 15-9 所 示 。 





2 4 6 8 


图 15-9 经 过 多 次 迭代 的 分 布 式 Pegasos 算 法 执行 结果 。 该 算法 收敛 迅速 ， 
多 次 迭代 后 可 以 得 到 更 好 的 结果 


如 果 想 在 EMR 上 运行 该 任务 ， 可 以 添加 运行 参数 ，-r emr。 该 作业 默认 使 用 的 服务 器 个 数 
是 1。 如 果 要 调整 的 话 ， 添 加 运行 参数 ，--num-ec2-instances=2 (这 里 的 2 也 可 以 是 其 他 正 整 
数 )， 整 个 命令 如 下 : 


Spython mrSVM.PY -r emr --num-ec2-instances=3 < kickStart.txt > myLog.txt 


要 查看 所 有 可 用 的 运行 参数 ,输入 %python mrsvM.py -h。 15 
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i 
调试 一 个 mxjob 肝 本 将 比 调试 一 人 个 简 单 的 Python 股本 诛 手 得 多 。 这 里 仅 给 出 一 些 调 试 建议 。 
口 确保 已 经 安装 了 所 有 所 需 的 部 件 : boto、simplejson 和 可 选 的 PyYAML。 

口 可 以 在 ~/.mrjob.conf 文 件 中 设 定 一 些 参 数 ， 确 定 它们 是 正确 的 。 

口 在 将 作业 放 在 EMR 上 运行 之 前 , 尽 可 能 在 本 地 多 做 调试 。 能 在 花费 10 秒 就 发 现 一 个 错误 

的 情况 下 ， 就 不 要 花费 10 分 钟 才 发 现 一 个 错误 。 

口 检查 base temp_ dir 目录 ， 它 在 ~/mrjob.conf 中 设 定 。 例 如 在 我 的 机 器 上 ， 该 目录 的 存放 位 
” 置 是 /scratch/$USER, 其 中 可 以 看 到 作业 的 输入 和 输出 ， 它 将 对 程序 的 调试 非常 有 帮助 。 
口 一 次 只 运行 一 个 步骤 。 








到 现在 为 止 ， 读 者 已 经 学 习 了 如 何 编写 以 及 如 何在 大 量 机 器 上 运行 机 器 学 习作 业 ,下 节 将 分 
析 这 样 做 的 必要 性 。 


15.7 ”你 真 的 需要 MapReduce 取 ? 


不 需要 知道 你 是 谁 ,我 可 以 说 , 你 很 可 能 并 不 需要 使 用 MapReduce 和 Hadoop， 因 为 单机 的 处 
理 能 力 已 经 足够 强大 。 这 些 大 数据 的 工具 是 Google、Yelp 和 Facebook 等 公司 开发 的 ， 世 界 上 能 有 
多 少 这 样 的 公司 ? 

充分 利用 已 有 资源 可 以 节省 时 间 和 精力 。 如 果 你 的 作业 花费 了 太 多 的 时 间 ， 先 问 问 自己 : 代 
码 是 否 能 用 更 有 效率 的 语言 编写 (如 C 或 者 Java ) ? 如 果 语 言 已 经 足够 有 效率 ， 那 么 代码 是 否 经 
过 了 充分 的 优化 ?影响 处 理 速 度 的 系统 瓶颈 在 哪里 , 是 内 存 还 是 处 理 器 ? 或 许 你 不 知道 这 些 问 题 
的 答案 ， 找 一 些 人 做 些 咨询 或 讨论 将 非常 有 益 。 

大 多 数 人 意识 不 到 单 台 机 器 上 可 以 做 多 少数 字 运 算 。 如 果 没 有 大 数据 的 问题 ,一 般 不 需要 用 
到 MapReduce 和 Hadoop。 但 对 MapReduce 和 Hadoop 稍 作 了 解 , 在 面临 大 数据 的 问题 时 知道 它们 能 
做 些 什么 ， 还 是 很 棒 的 一 件 事情 。 


15.8 ”本 章 小 结 


当 运 算 需 求 超出 了 当前 资源 的 运算 能 力 , 可 以 考虑 购买 更 好 的 机 器 。 另 一 个 情况 是 ,运算 需 
求 超出 了 合理 价位 下 所 能 购买 到 的 机 器 的 运算 能 力 。 其 中 一 个 解决 办 法 是 将 计算 转 成 并 行 的 作 
业 ，MapReduce 就 提供 了 这 种 方案 的 一 个 具体 实施 框架 。 在 MapReduce 中 ， 作 业 被 分 成 map 阶 段 
和 reduce 阶 段 。 

一 个 典型 的 作业 流程 是 先 使 用 map 阶 段 并 行 处 理 数 据 ， 之 后 将 这 些 数 据 在 reduce 阶 段 合并 。 
这 种 多 对 一 的 模式 很 典型 ， 但 不 是 唯一 的 流程 方式 。mapper 和 reducer 之 间 传 输 数 据 的 形式 是 
key/value 对 。 一 般 地 ，map 阶 段 后 数据 还 会 按照 key 值 进行 排序 。Hadoop 是 一 个 流行 的 可 运行 
MapReduce 作 业 的 Java 项 目 ， 它 同时 也 提供 非 Java 作 业 的 运行 支持 ， 叫 做 Hadoop 流 。 
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Amazon 网 络 服务 ( AWS ) 允许 用 户 按时 长 租借 计算 资源 。 弹 性 MapReduce( EMR ) 是 Amazon 
网 络 服务 上 的 一 个 常用 工具 , 可 以 帮助 用 户 在 AWS 上 运行 Hadoop 流 作业 。 简单 的 单 步 MapReduce 
任务 可 以 在 EMR 管 理 控制 台 上 实现 并 运行 。 更 复杂 的 任务 则 需要 额外 的 工具 。 其 中 一 个 相对 新 的 
开源 工具 是 mrjob， 使 用 该 工具 可 以 顺序 地 执行 大 量 的 MapReduce 作 业 。 经 过 很 少 的 配置 ，mrjob 
就 可 以 自动 完成 AWS 上 的 各 种 繁杂 步骤 。 

很 多 机 器 学 习 算法 都 可 以 很 容易 地 写成 MapReduce 作 业 。 而 另 一 些 机 器 学 习 算 法 需要 经 过 创 
新 性 的 修改 , 才能 在 MapReduce 上 运行 。 SVM 是 一 个 强大 的 文本 分 类 工具 ,在 大 量 文档 上 训练 一 
个 分 类 器 需要 耗费 巨大 的 计算 资源 ， 而 Pegasos 算 法 可 以 分 布 式 地 训练 SVM 分 类 器 。 像 Pegasos 算 
法 一 样 ， 需 要 多 次 MapReduce 作 业 的 机 器 学 习 算 潜 可 以 很 方便 地 使 用 mrjob 来 实现 。 

到 这 里 为 止 ， 本 书 的 正文 部 分 就 结束 了 ， 感 谢 你 的 阅读 。 希 望 这 本 书 能 为 你 开启 新 的 大 门 。 
另外 ,在 机 器 学 习 的 数学 和 具体 实现 方面 还 有 很 多 东西 值得 探索 。 我 很 期 待 你 能 使 用 在 本 书 里 学 
到 的 工具 和 技术 开发 出 一 些 有 趣 的 应 用 。 
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